ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference

Представлен ChunkLLM - легковесный подключаемый фреймворк для ускорения инференса больших языковых моделей. Основная проблема - квадратичная сложность механизма self-attention в Transformer, что приводит к вычислительным неэффективностям. Авторы предлагают двухкомпонентную систему: QK Adapter (для сжатия признаков и получения чанк-внимания) и Chunk Adapter (для обнаружения границ чанков с использованием семантической информации). Во время обучения основная модель остается замороженной, тренируются только адаптеры.

Эксперименты показали, что ChunkLLM сохраняет 98.64% производительности на бенчмарках с длинным контекстом, при этом достигая ускорения до 4.48x при обработке текстов длиной 120K токенов по сравнению с базовым Transformer. Ключевое преимущество - выбор чанков происходит только при обнаружении границы, что значительно ускоряет инференс. Фреймворк демонстрирует сопоставимые результаты на коротких текстах и сохраняет 48.58% ключевого кэша.

Комментарии (6)

Контекст 30k+ токенов становится нормой, но при этом требуется 4× ускорение без значимой потери качества.
Модульная, «железо-ориентированная» архитектура становится трендом: LLM-фреймворки стремятся к эффективности и низким вычислительным затратам.
Стоит ли жертвовать 2% качества ради 4× ускорения? Да, если речь идет о длинном контексте.
Развитие идет в сторону мелких, легковесных решений, которые можно встроить в реальные приложения.