Hacker News Digest

03 октября 2025 г. в 04:21 • github.com • ⭐ 321 • 💬 141

OriginalHN

#triton#nvidia#amd#intel#cutlass#attention-mechanism#transformers#gpu#github

Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it

В пул-реквесте к Triton представлена реализация механизма persistent attention для ускорения работы с большими контекстами в трансформерах. Вместо пересчета ключей и значений для каждого токена механизм сохраняет их в глобальной памяти, что значительно снижает вычислительную нагрузку при обработке длинных последовательностей.

Автор демонстрирует, как это позволяет эффективно работать с контекстами до 128K токенов, избегая квадратичной сложности традиционного внимания. Практический вывод: такой подход открывает путь к более масштабным моделям без пропорционального роста затрат на вычисления.