Qwen3-Next 🔥 Горячее 💬 Длинная дискуссия
Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.
Комментарии (198)
- Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
- На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
- Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
- Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
- GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.
Apertus 70B: Truly Open - Swiss LLM by ETH, EPFL and CSCS 🔥 Горячее
Apertus-70B-2509
Модель от швейцарского консорциума ETH Zurich и EPFL: 70 и 8 млрд параметров, полностью открытая (веса, данные, рецепты). Поддержка 1811 языков, 15 трлн токенов, xIELU-активация, AdEMAMix, QRPO-выравнивание. Работает в transformers ≥4.56 и vLLM. Требует согласия на политику конфиденциальности и фильтрацию персональных данных.
Комментарии (49)
- Apertus — 8B и 70B «полностью открытые» мультиязычные модели (1811 языков, 15T токенов, полные веса, данные и рецепты).
- Подчёркивают правовую чистоту: учёт robots.txt ретроспективно, opt-out, фильтр персональных данных, 81 контрольная точка для аудита.
- На бенчмарках ≈ Llama-3.1 по общим знаниям, но уступают в коде/рассуждениях; модели уже в MLX, GGUF скоро.
- Критика: gated-доступ на HF (нужен договор и контакты), размеры «2-3 поколения назад», нет GGUF/OpenRouter, ускоренный релиз без ярких метрик.
- Пользователи спрашивают стоимость обучения, запреты копирайта, весы швейцарских языков и прозрачность фильтров — команда обещает доклады и кастомизацию.
DeepSeek-v3.1 🔥 Горячее 💬 Длинная дискуссия
DeepSeek-V3.1 — первый шаг к эпохе агентов
- Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
- Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
- Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com
API
deepseek-chat→ Non-Think,deepseek-reasoner→ Think, контекст 128К.- Поддержка формата Anthropic API и строгого Function Calling (бета).
Инструменты и агенты
- Рост результатов на SWE / Terminal-Bench.
- Эффективнее многошаговые поисковые задачи.
Модель
- База V3.1: дообучена на 840 B токенов для длинного контекста.
- Обновлён токенайзер и шаблон чата.
- Веса открыты: V3.1-Base, V3.1.
Цены
- Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.
Комментарии (253)
- Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
- На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
- Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
- Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
- Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.
Ollama and gguf
Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.
Окружение:
- Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
- Ollama 0.3.6 (AppImage и Docker)
- Файл
gpt-oss-20b.q4_0.ggufвзят из официального репозиторияTheBloke, 11 ГБ
Лог:
ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model
Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.
Решение:
- Перекачать модель (
curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш. - Если проблема сохраняется — использовать другой квант (
q4_K_Mилиq5_0). - Либо конвертировать оригинальные веса самостоятельно через
llama.cpp/convert.py.
Комментарии (70)
- Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
- Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
- Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
- Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.