Hacker News Digest

Тег: #huggingface

Постов: 9

The Smol Training Playbook: The Secrets to Building World-Class LLMs (huggingface.co)

Hugging Face представила "Smol Training Playbook" — руководство по созданию высококлассовых языковых моделей с меньшими вычислительными требованиями. Этот интерактивный ресурс содержит лучшие практики и технические решения для эффективного обучения компактных моделей, сохраняющих при этом впечатляющую производительность. Проект уже собрал 839 лайков, что свидетельствует о высоком интересе сообщества к оптимизации LLM.

Пособие охватывает полный цикл разработки — от выбора архитектуры до методов квантизации и дистилляции моделей. Особое внимание уделяется балансу между размером модели и ее качеством, что особенно актуально для практического применения в условиях ограниченных ресурсов. Руководство доступно как интерактивное пространство на платформе Hugging Face, позволяющее исследователям и разработчикам применять описанные методы на практике.

by kashifr • 30 октября 2025 г. в 16:52 • 227 points

ОригиналHN

#huggingface#llm#quantization#distillation#machine-learning

Комментарии (15)

  • Создатели книги и документации активно участвуют в обсуждении, что подчеркивает их открытость к обратной связи.
  • Обсуждение вокруг "Smol" и его этимологии показало, что это просто интернет-мем, а не технический термин.
  • Участники обсуждали, что документация Hugging Face в первую очередь ориентирована на практику, а не только на теорию.
  • Несколько раз поднимался вопрос о том, что книга и документация не охватывают некоторые практические аспекты, такие как тонкая настройка и оптимизация.
  • В целом, обсуждение подтвердило, что сообщество активно вовлечено в улучшение и развитие ресурсов, и что у них есть желание внедрять обратную связь.

Cerebras systems raises $1.1B Series G (cerebras.ai)

Cerebras Systems привлекла $1,1 млрд в рамках раунда финансирования серии G, оценив компанию в $8,1 млрд. Инвестиции возглавили Fidelity Management & Research Company и Atreides Management при участии Tiger Global, Valor Equity Partners и других фондов. Средства направят на расширение портфеля технологий в области проектирования AI-процессоров, систем и суперкомпьютеров, а также на увеличение производственных и дата-центровых мощностей в США.

Компания демонстрирует экстремальное превосходство в скорости инференса — её решения до 20 раз быстрее GPU NVIDIA, что привлекло таких клиентов, как AWS, Meta, IBM и US Department of Defense. Cerebras обрабатывает триллионы токенов ежемесячно и лидирует на Hugging Face с 5+ млн запросов. Рост спроса подогревают реальные use-cases вроде генерации кода и агентных систем, где задержки критически дороги.

by fcpguru • 30 сентября 2025 г. в 15:54 • 75 points

ОригиналHN

#llm#ai-processors#supercomputers#aws#meta#ibm#huggingface#gpu#sram#hbm

Комментарии (36)

  • Cerebras впечатляет скоростью инференса благодаря уникальной архитектуре с огромным объемом SRAM, но сталкивается с критикой за ненадежность и проблемы с качеством ответов в кодинге
  • Пользователи отмечают неясную стратегию ценообразования и развертывания, высокую стоимость подписок и минимальные месячные обязательства
  • Обсуждаются возможные причины, по которым компания до сих пор не приобретена: высокая стоимость чипов, сложности упаковки, инвестиции ОАЭ и возможные проблемы, выявленные в ходе due diligence
  • Поднимается вопрос, почему компания не заменяет часть ядер на чипе на HBM-память, и обсуждаются технические сложности такой интеграции
  • Высказываются предположения, что крупные игроки (Amazon, IBM) могут проявить интерес к приобретению, но отмечается, что у Amazon уже есть собственные чипы Trainium

DeepFabric – Generate high-quality synthetic datasets at scale (lukehinds.github.io)

DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.

Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.

by decodebytes • 26 сентября 2025 г. в 14:26 • 85 points

ОригиналHN

#python#huggingface#apache-2.0#synthetic-data#machine-learning#chain-of-thought#great-expectations#dag#open-source#data-generation

Комментарии (16)

  • Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
  • Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
  • Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
  • Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
  • Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.

DeepSeek-v3.1-Terminus (api-docs.deepseek.com)

DeepSeek-V3.1-Terminus — это обновлённая версия модели, улучшающая языковую согласованность и производительность агентов. Теперь модель реже смешивает китайский и английский языки и почти не генерирует случайные символы, что повышает стабильность ответов. Агенты для работы с кодом и поиска стали значительно эффективнее.

Обновление доступно через приложение, веб-интерфейс и API, а открытые веса опубликованы на Hugging Face. Модель демонстрирует лучшие результаты в бенчмарках по сравнению с предыдущей версией, обеспечивая более предсказуемые и качественные ответы.

by meetpateltech • 22 сентября 2025 г. в 12:20 • 75 points

ОригиналHN

#deepseek#huggingface#mit#api#benchmarks#agents

Комментарии (22)

  • Обсуждается новая модель DeepSeek-V3.1-Terminus, приведены рабочие ссылки на её документацию и страницу на Hugging Face.
  • Участники отмечают улучшения в производительности, согласованности языка (меньше смешивания CN/EN) и отсутствие случайных символов.
  • Поднимается вопрос о сравнении DeepSeek с моделью Qwen, на который предлагается проводить бенчмаркинг под конкретные задачи.
  • Высказывается пожелание о создании удобного ресурса для отслеживания актуальных моделей, их версий, производительности и требований к железу.
  • Отмечается преимущество модели в виде лицензии MIT, позволяющей запускать её на собственном оборудовании и коммерциализировать.

Apertus 70B: Truly Open - Swiss LLM by ETH, EPFL and CSCS (huggingface.co) 🔥 Горячее

Apertus-70B-2509
Модель от швейцарского консорциума ETH Zurich и EPFL: 70 и 8 млрд параметров, полностью открытая (веса, данные, рецепты). Поддержка 1811 языков, 15 трлн токенов, xIELU-активация, AdEMAMix, QRPO-выравнивание. Работает в transformers ≥4.56 и vLLM. Требует согласия на политику конфиденциальности и фильтрацию персональных данных.

by denysvitali • 02 сентября 2025 г. в 20:14 • 275 points

ОригиналHN

#transformers#vllm#llama#mlx#gguf#huggingface#ethz#epfl#cscs#llm

Комментарии (49)

  • Apertus — 8B и 70B «полностью открытые» мультиязычные модели (1811 языков, 15T токенов, полные веса, данные и рецепты).
  • Подчёркивают правовую чистоту: учёт robots.txt ретроспективно, opt-out, фильтр персональных данных, 81 контрольная точка для аудита.
  • На бенчмарках ≈ Llama-3.1 по общим знаниям, но уступают в коде/рассуждениях; модели уже в MLX, GGUF скоро.
  • Критика: gated-доступ на HF (нужен договор и контакты), размеры «2-3 поколения назад», нет GGUF/OpenRouter, ускоренный релиз без ярких метрик.
  • Пользователи спрашивают стоимость обучения, запреты копирайта, весы швейцарских языков и прозрачность фильтров — команда обещает доклады и кастомизацию.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

  • Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
  • Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
  • Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
    Попробовать: chat.deepseek.com

API

  • deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
  • Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

  • Рост результатов на SWE / Terminal-Bench.
  • Эффективнее многошаговые поисковые задачи.

Модель

  • База V3.1: дообучена на 840 B токенов для длинного контекста.
  • Обновлён токенайзер и шаблон чата.
  • Веса открыты: V3.1-Base, V3.1.

Цены

  • Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

ОригиналHN

#deepseek#llm#api#gguf#huggingface#fp8#nvidia#anthropic#glm

Комментарии (253)

  • Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
  • На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
  • Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
  • Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
  • Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

Gemma 3 270M re-implemented in pure PyTorch for local tinkering (github.com) 🔥 Горячее

  • Назначение: ноутбук 12_gemma3.ipynb показывает, как загрузить и запустить модель Gemma-3 (1B/4B/12B/27B) с помощью Hugging Face Transformers и KerasNLP без обучения.
  • Установка: pip install transformers keras-nlp (Keras 3 + JAX/TF/PyTorch).
  • Код:
    • Авторизация через huggingface-cli login и keras_nlp.models.GemmaCausalLM.from_preset("gemma3_1b_en").
    • Генерация текста: model.generate("AI is", max_length=50).
  • Особенности Gemma-3: поддержка 140 языков, контекст до 128k токенов, инструмент-вызовы, улучшенные математика и код.
  • Внимание: модели весят 1–27 ГБ; требуется GPU/CPU с 8–48 ГБ ОЗУ.

by ModelForge • 20 августа 2025 г. в 14:01 • 399 points

ОригиналHN

#pytorch#huggingface#transformers#keras#gemma-3#jax#tensorflow#machine-learning#deep-learning#natural-language-processing

Комментарии (55)

  • Автор модели canyon289 представил Gemma 270M, ответил на вопросы и поделился туториалами.
  • Пользователи спрашивали: как перейти от классического ML к DL, где взять гайд по тонкой настройке для NER, какие бывают применения мелких моделей и нужен ли для них дополнительный трейнинг.
  • Обсуждали скорость работы на Mac CPU vs A100 GPU, качество эмбеддингов и возможность до-обучения.
  • canyon289 подтвердил, что модель полезна не только для учёбы, но и для продакшена: локальная классификация, суммаризация, тегирование, быстрый дев-цикл.

How attention sinks keep language models stable (hanlab.mit.edu)

Почему модели ломаются на длинных диалогах
При удалении старых токенов для экономии памяти модель начинает выдавать бессмыслицу. Причина — «attention sinks»: первые токены собирают избыточное внимание, потому что softmax требует, чтобы веса суммировались в 1.

StreamingLLM
Оставляем первые 4 токена навсегда, остальное сдвигаем окном. Работает до 4 млн токенов; уже в HuggingFace, TensorRT-LLM и новых OpenAI-моделях.

OpenAI и attention sinks
В GPT-OSS-20B/120B добавлен обучаемый скаляр в softmax каждой головы, позволяющий «не обращать внимания» — прямое наследие StreamingLLM.

История открытия
Летом 2023 в Meta я решал задачу: как продолжать диалог длиннее обучающего окна. Казалось, что достаточно скользящего окна, но при удалении первых токенов перплексия взлетала до небес.

Визуализация
Внимание Llama-2 постоянно «сливается» в начало. Эти токены-«стоки» не передают внимание дальше, а лишь поглощают его, поэтому их нельзя выбрасывать.

Математика
Softmax обязывает каждую голову распределить ровно 1.0 внимания. Если нет полезного контекста, весь «бюджет» уходит в первые позиции, где чуть выше базовые скоры.

by pr337h4m • 08 августа 2025 г. в 08:53 • 194 points

ОригиналHN

#attention-sinks#language-models#streamingllm#openai#bert#vit#llm#softmax#huggingface#tensorrt-llm

Комментарии (31)

  • Участники обсуждают «attention sinks» — токены-«стоки», на которые модель направляет избыточное внимание, чтобы не «размывать» полезную информацию.
  • Это поведение замечено и в BERT ([SEP], точки), и в ViT (фоновые патчи), и в GPT-OSS, где вместо добавления единицы к знаменателю обучают отдельный логит на каждую голову.
  • Синк-токены работают как «pressure valve», предотвращая over-mixing и давая модели «нулевой» вектор для случаев «не найдено».
  • Пользователи замечают, что первые слова («Hello», «Please») или CLS-подобные глобальные токены могут непреднамеренно служить такими стоками.
  • FOSS-реализации уже поддерживают приём: llama.cpp принял PR, а Diff-Transformer и другие идеи быстро переиспользуются.

Qwen3-4B-Thinking-2507 (huggingface.co)

  • За 3 месяца мы масштабировали «мышление» Qwen3-4B: выше качество и глубина рассуждений. Представляем Qwen3-4B-Thinking-2507:

    • Существенно лучше на задачах логики, математики, науки, кода и академических бенчмарках.
    • Улучшены общие навыки: следование инструкциям, инструменты, генерация текста, согласование с предпочтениями.
    • Расширено понимание длинного контекста: 256K.
    • Версия с увеличенной длиной «мышления» — рекомендуем для сложных задач.
  • Обзор модели:

    • Тип: Causal LM; Этапы: пре-/посттренировка.
    • Параметры: 4.0B (без эмбеддингов 3.6B); Слоёв: 36; GQA: 32 Q / 8 KV.
    • Контекст: 262 144 токенов.
    • Поддерживается только режим «thinking»; enable_thinking=True не нужен. Шаблон чата добавляет <think> автоматически; нормален вывод, содержащий только </think>.
    • Подробности: блог, GitHub, документация.
  • Производительность (избранное):

    • Знания: MMLU-Pro 74.0; MMLU-Redux 86.1; GPQA 65.8.
    • Рассуждения: AIME25 81.3; HMMT25 55.5; LiveBench 71.8.
    • Код: LiveCodeBench v6 55.2; CFEval 1852; OJBench 17.9.
    • Алайнмент: IFEval 87.4; Arena-Hard v2 34.9; WritingBench 83.3.
    • Агенты: BFCL-v3 71.2; TAU1/2 — лучшие в ряде доменов.
    • Мультиязычность: MultiIF 77.3; PolyMATH 46.2.
    • Примечания: выигрыш на Arena — GPT-4.1; для сложных задач — вывод до 81 920 токенов, иначе 32 768.
  • Быстрый старт:

    • Нужен свежий transformers (иначе KeyError: 'qwen3').
    • Пример кода: загрузить AutoTokenizer/AutoModelForCausalLM, применить chat template, сгенерировать до 32 768 новых токенов, выделить «thinking»-часть до токена </think> (ID 151668) и основное содержимое.
    • Для продакшна: sglang>=0.4.6.post1 или vllm>=0.8.5; можно поднять OpenAI-совместимый сервис.

by IdealeZahlen • 06 августа 2025 г. в 15:50 • 187 points

ОригиналHN

#qwen#huggingface#machine-learning#natural-language-processing#transformers#llm#open-source#deep-learning#benchmarking

Комментарии (60)

  • Обсуждают малый открытый модель Qwen3-4B (в т.ч. «Thinking/Instr»), её доступность в LM Studio и на Hugging Face, возможность запуска на ПК, Mac (mlx 4–8 бит) и даже на слабом железе; полный контекст 262k токенов может требовать десятки ГБ RAM.
  • По отзывам: модель быстрая, компактная и по многим бенчмаркам заметно улучшена; в ряде метрик приближается к старой 30B MoE-версии при ~7,5× меньшем размере, но новая 30B-A3B всё же сильнее.
  • Практический опыт: хороша в анализе задач, но встречаются галлюцинации в предложениях/советах.
  • Идёт сравнение с Gemma 3n: на общих тестах (напр. AIME, LiveCodeBench) Qwen3-4B-Thinking показывает значительно более высокие результаты.
  • Обсуждают надёжность метрик: многие бенчмарки оцениваются GPT‑4.1; возникают вопросы о возможной адаптации моделей под «угодные» ответы и нехватке ручного аудита.
  • Для «народных» оценок советуют LM Arena, Artificial Analysis, OpenRouter stats и r/LocalLlama, но подчёркивают ограниченную надёжность толпы.
  • Вопросы пользователей: как соотносится контекст и RAM; варианты для iPhone/Apple Silicon; ссылки на готовые gguf и mlx-сборки предоставлены.