The Smol Training Playbook: The Secrets to Building World-Class LLMs
Hugging Face представила "Smol Training Playbook" — руководство по созданию высококлассовых языковых моделей с меньшими вычислительными требованиями. Этот интерактивный ресурс содержит лучшие практики и технические решения для эффективного обучения компактных моделей, сохраняющих при этом впечатляющую производительность. Проект уже собрал 839 лайков, что свидетельствует о высоком интересе сообщества к оптимизации LLM.
Пособие охватывает полный цикл разработки — от выбора архитектуры до методов квантизации и дистилляции моделей. Особое внимание уделяется балансу между размером модели и ее качеством, что особенно актуально для практического применения в условиях ограниченных ресурсов. Руководство доступно как интерактивное пространство на платформе Hugging Face, позволяющее исследователям и разработчикам применять описанные методы на практике.
Комментарии (15)
- Создатели книги и документации активно участвуют в обсуждении, что подчеркивает их открытость к обратной связи.
- Обсуждение вокруг "Smol" и его этимологии показало, что это просто интернет-мем, а не технический термин.
- Участники обсуждали, что документация Hugging Face в первую очередь ориентирована на практику, а не только на теорию.
- Несколько раз поднимался вопрос о том, что книга и документация не охватывают некоторые практические аспекты, такие как тонкая настройка и оптимизация.
- В целом, обсуждение подтвердило, что сообщество активно вовлечено в улучшение и развитие ресурсов, и что у них есть желание внедрять обратную связь.
Cerebras systems raises $1.1B Series G
Cerebras Systems привлекла $1,1 млрд в рамках раунда финансирования серии G, оценив компанию в $8,1 млрд. Инвестиции возглавили Fidelity Management & Research Company и Atreides Management при участии Tiger Global, Valor Equity Partners и других фондов. Средства направят на расширение портфеля технологий в области проектирования AI-процессоров, систем и суперкомпьютеров, а также на увеличение производственных и дата-центровых мощностей в США.
Компания демонстрирует экстремальное превосходство в скорости инференса — её решения до 20 раз быстрее GPU NVIDIA, что привлекло таких клиентов, как AWS, Meta, IBM и US Department of Defense. Cerebras обрабатывает триллионы токенов ежемесячно и лидирует на Hugging Face с 5+ млн запросов. Рост спроса подогревают реальные use-cases вроде генерации кода и агентных систем, где задержки критически дороги.
Комментарии (36)
- Cerebras впечатляет скоростью инференса благодаря уникальной архитектуре с огромным объемом SRAM, но сталкивается с критикой за ненадежность и проблемы с качеством ответов в кодинге
- Пользователи отмечают неясную стратегию ценообразования и развертывания, высокую стоимость подписок и минимальные месячные обязательства
- Обсуждаются возможные причины, по которым компания до сих пор не приобретена: высокая стоимость чипов, сложности упаковки, инвестиции ОАЭ и возможные проблемы, выявленные в ходе due diligence
- Поднимается вопрос, почему компания не заменяет часть ядер на чипе на HBM-память, и обсуждаются технические сложности такой интеграции
- Высказываются предположения, что крупные игроки (Amazon, IBM) могут проявить интерес к приобретению, но отмечается, что у Amazon уже есть собственные чипы Trainium
DeepFabric – Generate high-quality synthetic datasets at scale
DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.
Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.
Комментарии (16)
- Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
- Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
- Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
- Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
- Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.
DeepSeek-v3.1-Terminus
DeepSeek-V3.1-Terminus — это обновлённая версия модели, улучшающая языковую согласованность и производительность агентов. Теперь модель реже смешивает китайский и английский языки и почти не генерирует случайные символы, что повышает стабильность ответов. Агенты для работы с кодом и поиска стали значительно эффективнее.
Обновление доступно через приложение, веб-интерфейс и API, а открытые веса опубликованы на Hugging Face. Модель демонстрирует лучшие результаты в бенчмарках по сравнению с предыдущей версией, обеспечивая более предсказуемые и качественные ответы.
Комментарии (22)
- Обсуждается новая модель DeepSeek-V3.1-Terminus, приведены рабочие ссылки на её документацию и страницу на Hugging Face.
- Участники отмечают улучшения в производительности, согласованности языка (меньше смешивания CN/EN) и отсутствие случайных символов.
- Поднимается вопрос о сравнении DeepSeek с моделью Qwen, на который предлагается проводить бенчмаркинг под конкретные задачи.
- Высказывается пожелание о создании удобного ресурса для отслеживания актуальных моделей, их версий, производительности и требований к железу.
- Отмечается преимущество модели в виде лицензии MIT, позволяющей запускать её на собственном оборудовании и коммерциализировать.
Apertus 70B: Truly Open - Swiss LLM by ETH, EPFL and CSCS 🔥 Горячее
Apertus-70B-2509
Модель от швейцарского консорциума ETH Zurich и EPFL: 70 и 8 млрд параметров, полностью открытая (веса, данные, рецепты). Поддержка 1811 языков, 15 трлн токенов, xIELU-активация, AdEMAMix, QRPO-выравнивание. Работает в transformers ≥4.56 и vLLM. Требует согласия на политику конфиденциальности и фильтрацию персональных данных.
Комментарии (49)
- Apertus — 8B и 70B «полностью открытые» мультиязычные модели (1811 языков, 15T токенов, полные веса, данные и рецепты).
- Подчёркивают правовую чистоту: учёт robots.txt ретроспективно, opt-out, фильтр персональных данных, 81 контрольная точка для аудита.
- На бенчмарках ≈ Llama-3.1 по общим знаниям, но уступают в коде/рассуждениях; модели уже в MLX, GGUF скоро.
- Критика: gated-доступ на HF (нужен договор и контакты), размеры «2-3 поколения назад», нет GGUF/OpenRouter, ускоренный релиз без ярких метрик.
- Пользователи спрашивают стоимость обучения, запреты копирайта, весы швейцарских языков и прозрачность фильтров — команда обещает доклады и кастомизацию.
DeepSeek-v3.1 🔥 Горячее 💬 Длинная дискуссия
DeepSeek-V3.1 — первый шаг к эпохе агентов
- Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
- Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
- Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com
API
deepseek-chat→ Non-Think,deepseek-reasoner→ Think, контекст 128К.- Поддержка формата Anthropic API и строгого Function Calling (бета).
Инструменты и агенты
- Рост результатов на SWE / Terminal-Bench.
- Эффективнее многошаговые поисковые задачи.
Модель
- База V3.1: дообучена на 840 B токенов для длинного контекста.
- Обновлён токенайзер и шаблон чата.
- Веса открыты: V3.1-Base, V3.1.
Цены
- Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.
Комментарии (253)
- Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
- На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
- Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
- Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
- Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.
Gemma 3 270M re-implemented in pure PyTorch for local tinkering 🔥 Горячее
- Назначение: ноутбук
12_gemma3.ipynbпоказывает, как загрузить и запустить модель Gemma-3 (1B/4B/12B/27B) с помощью Hugging Face Transformers и KerasNLP без обучения. - Установка:
pip install transformers keras-nlp(Keras 3 + JAX/TF/PyTorch). - Код:
- Авторизация через
huggingface-cli loginиkeras_nlp.models.GemmaCausalLM.from_preset("gemma3_1b_en"). - Генерация текста:
model.generate("AI is", max_length=50).
- Авторизация через
- Особенности Gemma-3: поддержка 140 языков, контекст до 128k токенов, инструмент-вызовы, улучшенные математика и код.
- Внимание: модели весят 1–27 ГБ; требуется GPU/CPU с 8–48 ГБ ОЗУ.
Комментарии (55)
- Автор модели canyon289 представил Gemma 270M, ответил на вопросы и поделился туториалами.
- Пользователи спрашивали: как перейти от классического ML к DL, где взять гайд по тонкой настройке для NER, какие бывают применения мелких моделей и нужен ли для них дополнительный трейнинг.
- Обсуждали скорость работы на Mac CPU vs A100 GPU, качество эмбеддингов и возможность до-обучения.
- canyon289 подтвердил, что модель полезна не только для учёбы, но и для продакшена: локальная классификация, суммаризация, тегирование, быстрый дев-цикл.
How attention sinks keep language models stable
Почему модели ломаются на длинных диалогах
При удалении старых токенов для экономии памяти модель начинает выдавать бессмыслицу. Причина — «attention sinks»: первые токены собирают избыточное внимание, потому что softmax требует, чтобы веса суммировались в 1.
StreamingLLM
Оставляем первые 4 токена навсегда, остальное сдвигаем окном. Работает до 4 млн токенов; уже в HuggingFace, TensorRT-LLM и новых OpenAI-моделях.
OpenAI и attention sinks
В GPT-OSS-20B/120B добавлен обучаемый скаляр в softmax каждой головы, позволяющий «не обращать внимания» — прямое наследие StreamingLLM.
История открытия
Летом 2023 в Meta я решал задачу: как продолжать диалог длиннее обучающего окна. Казалось, что достаточно скользящего окна, но при удалении первых токенов перплексия взлетала до небес.
Визуализация
Внимание Llama-2 постоянно «сливается» в начало. Эти токены-«стоки» не передают внимание дальше, а лишь поглощают его, поэтому их нельзя выбрасывать.
Математика
Softmax обязывает каждую голову распределить ровно 1.0 внимания. Если нет полезного контекста, весь «бюджет» уходит в первые позиции, где чуть выше базовые скоры.
Комментарии (31)
- Участники обсуждают «attention sinks» — токены-«стоки», на которые модель направляет избыточное внимание, чтобы не «размывать» полезную информацию.
- Это поведение замечено и в BERT ([SEP], точки), и в ViT (фоновые патчи), и в GPT-OSS, где вместо добавления единицы к знаменателю обучают отдельный логит на каждую голову.
- Синк-токены работают как «pressure valve», предотвращая over-mixing и давая модели «нулевой» вектор для случаев «не найдено».
- Пользователи замечают, что первые слова («Hello», «Please») или CLS-подобные глобальные токены могут непреднамеренно служить такими стоками.
- FOSS-реализации уже поддерживают приём: llama.cpp принял PR, а Diff-Transformer и другие идеи быстро переиспользуются.
Qwen3-4B-Thinking-2507
-
За 3 месяца мы масштабировали «мышление» Qwen3-4B: выше качество и глубина рассуждений. Представляем Qwen3-4B-Thinking-2507:
- Существенно лучше на задачах логики, математики, науки, кода и академических бенчмарках.
- Улучшены общие навыки: следование инструкциям, инструменты, генерация текста, согласование с предпочтениями.
- Расширено понимание длинного контекста: 256K.
- Версия с увеличенной длиной «мышления» — рекомендуем для сложных задач.
-
Обзор модели:
- Тип: Causal LM; Этапы: пре-/посттренировка.
- Параметры: 4.0B (без эмбеддингов 3.6B); Слоёв: 36; GQA: 32 Q / 8 KV.
- Контекст: 262 144 токенов.
- Поддерживается только режим «thinking»; enable_thinking=True не нужен. Шаблон чата добавляет <think> автоматически; нормален вывод, содержащий только </think>.
- Подробности: блог, GitHub, документация.
-
Производительность (избранное):
- Знания: MMLU-Pro 74.0; MMLU-Redux 86.1; GPQA 65.8.
- Рассуждения: AIME25 81.3; HMMT25 55.5; LiveBench 71.8.
- Код: LiveCodeBench v6 55.2; CFEval 1852; OJBench 17.9.
- Алайнмент: IFEval 87.4; Arena-Hard v2 34.9; WritingBench 83.3.
- Агенты: BFCL-v3 71.2; TAU1/2 — лучшие в ряде доменов.
- Мультиязычность: MultiIF 77.3; PolyMATH 46.2.
- Примечания: выигрыш на Arena — GPT-4.1; для сложных задач — вывод до 81 920 токенов, иначе 32 768.
-
Быстрый старт:
- Нужен свежий transformers (иначе KeyError: 'qwen3').
- Пример кода: загрузить AutoTokenizer/AutoModelForCausalLM, применить chat template, сгенерировать до 32 768 новых токенов, выделить «thinking»-часть до токена </think> (ID 151668) и основное содержимое.
- Для продакшна: sglang>=0.4.6.post1 или vllm>=0.8.5; можно поднять OpenAI-совместимый сервис.
Комментарии (60)
- Обсуждают малый открытый модель Qwen3-4B (в т.ч. «Thinking/Instr»), её доступность в LM Studio и на Hugging Face, возможность запуска на ПК, Mac (mlx 4–8 бит) и даже на слабом железе; полный контекст 262k токенов может требовать десятки ГБ RAM.
- По отзывам: модель быстрая, компактная и по многим бенчмаркам заметно улучшена; в ряде метрик приближается к старой 30B MoE-версии при ~7,5× меньшем размере, но новая 30B-A3B всё же сильнее.
- Практический опыт: хороша в анализе задач, но встречаются галлюцинации в предложениях/советах.
- Идёт сравнение с Gemma 3n: на общих тестах (напр. AIME, LiveCodeBench) Qwen3-4B-Thinking показывает значительно более высокие результаты.
- Обсуждают надёжность метрик: многие бенчмарки оцениваются GPT‑4.1; возникают вопросы о возможной адаптации моделей под «угодные» ответы и нехватке ручного аудита.
- Для «народных» оценок советуют LM Arena, Artificial Analysis, OpenRouter stats и r/LocalLlama, но подчёркивают ограниченную надёжность толпы.
- Вопросы пользователей: как соотносится контекст и RAM; варианты для iPhone/Apple Silicon; ссылки на готовые gguf и mlx-сборки предоставлены.