The Smol Training Playbook: The Secrets to Building World-Class LLMs
Hugging Face представила "Smol Training Playbook" — руководство по созданию высококлассовых языковых моделей с меньшими вычислительными требованиями. Этот интерактивный ресурс содержит лучшие практики и технические решения для эффективного обучения компактных моделей, сохраняющих при этом впечатляющую производительность. Проект уже собрал 839 лайков, что свидетельствует о высоком интересе сообщества к оптимизации LLM.
Пособие охватывает полный цикл разработки — от выбора архитектуры до методов квантизации и дистилляции моделей. Особое внимание уделяется балансу между размером модели и ее качеством, что особенно актуально для практического применения в условиях ограниченных ресурсов. Руководство доступно как интерактивное пространство на платформе Hugging Face, позволяющее исследователям и разработчикам применять описанные методы на практике.
Комментарии (15)
- Создатели книги и документации активно участвуют в обсуждении, что подчеркивает их открытость к обратной связи.
- Обсуждение вокруг "Smol" и его этимологии показало, что это просто интернет-мем, а не технический термин.
- Участники обсуждали, что документация Hugging Face в первую очередь ориентирована на практику, а не только на теорию.
- Несколько раз поднимался вопрос о том, что книга и документация не охватывают некоторые практические аспекты, такие как тонкая настройка и оптимизация.
- В целом, обсуждение подтвердило, что сообщество активно вовлечено в улучшение и развитие ресурсов, и что у них есть желание внедрять обратную связь.
A beginner's guide to deploying LLMs with AMD on Windows using PyTorch
AMD и GPUOpen опубликовали практическое руководство, как запустить LLM на Windows с GPU AMD и PyTorch. Самое важное — это не требует ROCm, а использует DirectML, что делает процесс доступным для большинства геймерских видеокарт Radeon. Поддерживаются модели Llama 3.2, Mistral и Gemma, а также Q4 и FP16 квантизация. Подготовка включает установку ROCm и PyTorch, но ROCm не используется; вместо этого используется DirectML. Процесс включает скачивание модели, конвертацию в GGUF с помощью llama.cpp, и запуск через веб-интерфейс Gradio. Важно, что весь процесс происходит на Windows без виртуализации или WSL2.
Комментарии (26)
I have a philosophy for which I have mixed feelings because I like it in principle despite it making me worse off in some other ways: Devs should punish companies that clearly don't give a shit about them. When I see AMD, I think of a firm that heavily prioritized their B2B busin
Bit is all we need: binary normalized neural networks
Новая архитектура бинарных нормализованных нейросетей (BNNN) показывает, что для эффективного представления весов достаточно всего одного бита. Вместо традиционных 32-битных значений BNNN использует бинарные веса (±1), что резко сокращает требования к памяти и вычислительной сложности. Это особенно важно для развёртывания моделей на устройствах с ограниченными ресурсами, таких как микроконтроллеры или мобильные телефоны.
Эксперименты подтверждают, что BNNN сохраняет конкурентную точность на задачах классификации изображений, несмотря на экстремальное сжатие. Метод включает нормализацию активаций, что компенсирует потерю информации от бинаризации. Практический вывод: бинарные представления могут быть достаточны для многих приложений, открывая путь к более энергоэффективному ИИ.
Комментарии (35)
- Критика новизны подхода и ссылки на более ранние исследования в области квантованных сетей
- Обсуждение недостатков метода: значительное увеличение времени обучения и отсутствие квантования активаций
- Указание на то, что метод предназначен в основном для инференса, а не для обучения
- Сомнения в корректности выводов работы и её названия, указывающие на игнорирование предыдущих исследований
- Обсуждение технических деталей, таких как хранение параметров в двух формах и возможность более низкой битности
Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.
Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.
Комментарии (10)
- Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
- Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
- Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
- Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
- Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.
Vector database that can index 1B vectors in 48M
Зачем и как мы сделали Vectroid
Почти все векторные БД заставляют выбирать: скорость, точность или цена. Мы решили, что жертвы не нужны, и собрали serverless-решение, где всё хорошо одновременно.
Ключевая идея:
- нагрузка скачет ⇒ ресурсы выделяем динамически;
- алгоритм HNSW жрёт память, но его можно «сплющить» квантованием и развернуть обратно при необходимости.
Что умеет Vectroid
- Поиск по HNSW: 90 % recall при 10 QPS и P99 = 34 мс (MS Marco, 138 M векторов).
- Индексация 1 M векторов в минуту, 1 B — за 48 мин.
- Записи становятся видны почти сразу после вставки.
- Масштаб до миллиардов векторов в одном пространстве.
- Пишущая и читающая части масштабируются отдельно, данные живут в GCS/S3, индексы подгружаются лениво и выгружаются при простое.
Архитектура
Два независимых микросервиса: ingest и query. Все слои (вставка, индекс, поиск) масштабируются отдельно, память экономится квантованием и покадровой выгрузкой.
Попробовать бесплатно — 100 ГБ индексов навсегда.
Комментарии (41)
- Предложена идея «векторного движка» как лёгкой встраиваемой библиотеки для быстрого построения и поиска эмбеддингов, без переизобретения велосипеда в каждом продукте.
- Участники спорят о масштабируемости: 1 млрд 4096-мерных векторов теоретически невозможно держать в одной VRAM-карте (4 Т скаляров), но можно разбить на кластеры или сжать квантованием.
- Ключевой вызов — не алгоритм (HNSW/IVF), а распределённая архитектура: отдельное масштабирование записи и чтения, баланс цена-точность-латентность.
- Уже есть похожие open-source решения (USearch в ClickHouse, TurboPuffer), но новые SaaS-продукты (Vectroid и др.) обещают серверлесс, объектное хранилище и «редисо-подобный» кэш.
- Часть аудитории критикует закрытость кода и риск вендор-локина; стартапы отвечают, что opensource пока замедляет релизы, а вектора легко экспортировать.
Qwen3 30B A3B Hits 13 token/s on 4xRaspberry Pi 5 🔥 Горячее
Qwen3 30B A3B Q40 на 4×Raspberry Pi 5 8 ГБ
- 30-миллиардная модель запущена на кластере из четырёх Pi 5.
- Использован формат Q40 (40% квантование), суммарно ~19 ГБ ОЗУ.
- Скорость генерации: 1,1 токен/с при 128-к контексте.
- Сеть — Gigabit Ethernet, трафик между узлами 200–300 Мбит/с.
- Питание: 5 В 5 А на каждую плату, общая мощность ≈ 60 Вт.
- Охлаждение: радиаторы + 30-мм вентиляторы, температура 60–65 °C.
- Проект полностью open-source, собран за 2 часа.
Комментарии (131)
- На кластере из 4×Raspberry Pi 5 запустили 30B-MoE-модель (3B активных параметров) и получили 13 токен/с при 4-битной квантизации.
- Участники сравнили цену/производительность с GPU, старыми x86-мини-ПК и RK3588-SBC: у Pi самая низкая энергоэффективность и дороговато за такую скорость.
- Главный интерес — «доказательство концепции» распределённого инференса: tensor-parallelism по Ethernet, максимум узлов = числу KV-голов модели.
- Сеть (1 Gb/s) пока не узкое место, но рост требует 2ⁿ узлов и сталкивается с латентностью и NUMA-эффектами.
- Кому-то идея нравится как дешёвый edge-LLM без интернета, другие считают проект игрушкой и советуют докупить used GPU или M4-Mac mini.
Ollama and gguf
Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.
Окружение:
- Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
- Ollama 0.3.6 (AppImage и Docker)
- Файл
gpt-oss-20b.q4_0.ggufвзят из официального репозиторияTheBloke, 11 ГБ
Лог:
ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model
Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.
Решение:
- Перекачать модель (
curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш. - Если проблема сохраняется — использовать другой квант (
q4_K_Mилиq5_0). - Либо конвертировать оригинальные веса самостоятельно через
llama.cpp/convert.py.
Комментарии (70)
- Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
- Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
- Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
- Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.
Комментарии (63)
- Пользователи жалуются, что при росте контекста модель «убивается» скоростью обработки, хотя генерация токенов быстрая.
- Вопросы безопасности: guard-rails вшиты, но есть форки «abliterated» и джейлбрейки, хотя они делают модель глупее.
- Дискуссия о цене: 64–128 ГБ ОЗУ и RTX 3060 называют как «дешёвое» железо (< $1000), но для многих всё ещё дорого.
- На 64 ГБ Mac и 16 ГБ MacBook Air удаётся запускать 20B и 4B квантованные модели, но function calling в llama.cpp пока сломан.
- Появился патч, который должен починить llama.cpp; оптимизация экспертных слоёв через regex работает и на других MoE-моделях.