ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference
Представлен ChunkLLM - легковесный подключаемый фреймворк для ускорения инференса больших языковых моделей. Основная проблема - квадратичная сложность механизма self-attention в Transformer, что приводит к вычислительным неэффективностям. Авторы предлагают двухкомпонентную систему: QK Adapter (для сжатия признаков и получения чанк-внимания) и Chunk Adapter (для обнаружения границ чанков с использованием семантической информации). Во время обучения основная модель остается замороженной, тренируются только адаптеры.
Эксперименты показали, что ChunkLLM сохраняет 98.64% производительности на бенчмарках с длинным контекстом, при этом достигая ускорения до 4.48x при обработке текстов длиной 120K токенов по сравнению с базовым Transformer. Ключевое преимущество - выбор чанков происходит только при обнаружении границы, что значительно ускоряет инференс. Фреймворк демонстрирует сопоставимые результаты на коротких текстах и сохраняет 48.58% ключевого кэша.
Комментарии (6)
- Контекст 30k+ токенов становится нормой, но при этом требуется 4× ускорение без значимой потери качества.
- Модульная, «железо-ориентированная» архитектура становится трендом: LLM-фреймворки стремятся к эффективности и низким вычислительным затратам.
- Стоит ли жертвовать 2% качества ради 4× ускорения? Да, если речь идет о длинном контексте.
- Развитие идет в сторону мелких, легковесных решений, которые можно встроить в реальные приложения.
A History of Large Language Models
TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.
Основные идеи и факты:
- Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
- Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
- Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
- Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.
Комментарии (17)
- Обсуждение подчеркнуло, что ранние LLM-архитектуры (GPT-1, GPT-2) часто упускаются из виду, хотя именно они положили начало современному направлению.
- Участники отметили, что статья недооценивает значение BERT как промежуточного этапа, несмотря на его влияние на многочисленные бенчмарки и задачи.
- Сообщество отметило, что LLM не столько «решили» задачи, сколько стали вычислять вероятности последовательностей, и это вызвало скепсис в отношении заявлений о приближении к AGI.
- Была затронута тема, что вместо специализированных моделей классификации или регрессии, которые раньше использовали предобученные репрезентации, теперь используют LLM как универсальный инструмент, и это вызывает вопросы о том, как именно LLM влияют на поле AI-исследований.
Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it 🔥 Горячее
В пул-реквесте к Triton представлена реализация механизма persistent attention для ускорения работы с большими контекстами в трансформерах. Вместо пересчета ключей и значений для каждого токена механизм сохраняет их в глобальной памяти, что значительно снижает вычислительную нагрузку при обработке длинных последовательностей.
Автор демонстрирует, как это позволяет эффективно работать с контекстами до 128K токенов, избегая квадратичной сложности традиционного внимания. Практический вывод: такой подход открывает путь к более масштабным моделям без пропорционального роста затрат на вычисления.
Комментарии (141)
- NVIDIA использует хардкод для оптимизации кода, содержащего "cutlass" в названии, что может быть нестабильным и приводить к скрытым багам.
- Подобные практики (оптимизации по именам функций или приложений) исторически распространены среди производителей железа и софта (ATI/AMD, Intel, Microsoft) для улучшения бенчмарков, иногда в ущерб качеству.
- Мотивация таких оптимизаций часто не злонамеренна, а связана с снижением рисков и фокусом на стабильности собственных библиотек, но создаёт новые барьеры.
- В индустрии существуют разногласия по поводу этичности таких практик, но для графических драйверов тюнинг под конкретные игры стал нормой.
- Обсуждаются проблемы проприетарного кода (драйверы, прошивки) и затраты общества на обратную разработку вместо сотрудничества.
LLM Visualization 🔥 Горячее
Визуализация Больших Языковых Моделей
Главная
Комментарии (38)
- Пользователи восторгаются визуализацией работы LLM, называя её «искусством» и полезным учебным ресурсом.
- Приводятся ссылки на похожие визуализации (Transformer Explainer, Illustrated Transformer, видео Karpathy).
- Обсуждается, что модель выглядит простой (уравнение внимания на салфетке), но остаётся «чёрным ящиком» для понимания принятия решений.
- Уточняется: LLM уже запускаются на чипах (ноутбук, телефон), дата-центры нужны для обучения и масштабирования.
- Вспоминаются предпосылки бума: рост GPU, алгоритм Transformer, идея извлекать знания из данных вместо ручного кодирования.
The maths you need to start understanding LLMs 🔥 Горячее
- Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
- Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
- Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
- Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
- Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
- Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
- MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
- LayerNorm: стабилизирует распределение после каждого подслоя.
- Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
- Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.
Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.
Комментарии (106)
- Физики и математики вспомнили, что знание тензорного исчисления, линалгебры и энтропии пригодилось для понимания backprop и LLM.
- Практика: «смотреть» Karpathy недостаточно — нужно кодить за ним; его курс даёт базы и уверенность копать дальше.
- Книга «Build a Large Language Model (from Scratch)» идёт шаг-за-шагом, но объясняет только вычисления, а не «почему это вообще работает»; explainability всё ещё исследуется.
- Путаница: эмбеддинги ≠ вся модель; они лишь вход для трансформера, внутри которого 1,8 трлн параметров и «чёрный ящик».
- LLM — логит-генераторы с неизбежной неопределённостью; цепочки моделей накапливают ошибку и быстро «ломаются» без человека-оркестратора.
- Для 99 % разработчиков хватает линалгебры, softmax, градиентов и PyTorch; остальное — инженерия данных, трюки и эксперименты.
The Annotated Transformer (2022)
Суть статьи в двух словах
- Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
- Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
- Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
- Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
- Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.
Комментарии (11)
- @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
- Участники хвалят качество объяснения attention и детализацию визуализации.
- @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
- @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
- @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.
Комментарии (31)
Deep seek papers are a must to read for anyone who wants to understand how to make LLMs operate at hyper scale. All western labs hide their best results, or at most release summaries that are about as meaningful as the answers Cleo used to give on stack exchange: https://math.sta