Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it

В пул-реквесте к Triton представлена реализация механизма persistent attention для ускорения работы с большими контекстами в трансформерах. Вместо пересчета ключей и значений для каждого токена механизм сохраняет их в глобальной памяти, что значительно снижает вычислительную нагрузку при обработке длинных последовательностей.

Автор демонстрирует, как это позволяет эффективно работать с контекстами до 128K токенов, избегая квадратичной сложности традиционного внимания. Практический вывод: такой подход открывает путь к более масштабным моделям без пропорционального роста затрат на вычисления.

Комментарии (141)

NVIDIA использует хардкод для оптимизации кода, содержащего "cutlass" в названии, что может быть нестабильным и приводить к скрытым багам.
Подобные практики (оптимизации по именам функций или приложений) исторически распространены среди производителей железа и софта (ATI/AMD, Intel, Microsoft) для улучшения бенчмарков, иногда в ущерб качеству.
Мотивация таких оптимизаций часто не злонамеренна, а связана с снижением рисков и фокусом на стабильности собственных библиотек, но создаёт новые барьеры.
В индустрии существуют разногласия по поводу этичности таких практик, но для графических драйверов тюнинг под конкретные игры стал нормой.
Обсуждаются проблемы проприетарного кода (драйверы, прошивки) и затраты общества на обратную разработку вместо сотрудничества.