Hacker News Digest

24 октября 2025 г. в 11:41 • arxiv.org • ⭐ 84 • 💬 6

OriginalHN

#transformer#self-attention#llm#inference#attention-mechanism#machine-learning#natural-language-processing#arxiv

ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference

Представлен ChunkLLM - легковесный подключаемый фреймворк для ускорения инференса больших языковых моделей. Основная проблема - квадратичная сложность механизма self-attention в Transformer, что приводит к вычислительным неэффективностям. Авторы предлагают двухкомпонентную систему: QK Adapter (для сжатия признаков и получения чанк-внимания) и Chunk Adapter (для обнаружения границ чанков с использованием семантической информации). Во время обучения основная модель остается замороженной, тренируются только адаптеры.

Эксперименты показали, что ChunkLLM сохраняет 98.64% производительности на бенчмарках с длинным контекстом, при этом достигая ускорения до 4.48x при обработке текстов длиной 120K токенов по сравнению с базовым Transformer. Ключевое преимущество - выбор чанков происходит только при обнаружении границы, что значительно ускоряет инференс. Фреймворк демонстрирует сопоставимые результаты на коротких текстах и сохраняет 48.58% ключевого кэша.