Hacker News Digest

14 ноября 2025 г. в 02:27 • hazyresearch.stanford.edu • ⭐ 218 • 💬 71

OriginalHN

#amd#gpu#rocm#pytorch#llm#machine-learning#cuda#triton#mojo#transformers

HipKittens: Fast and furious AMD kernels

Исследователи из Stanford представили HipKittens — набор высокопроизводительных ядер для AMD GPU и примитивов программирования, призванных решить проблему нехватки зрелого ПО для AMD в области ИИ. Несмотря на впечатляющие характеристики AMD MI355X (2.5 PFLOPS для BF16, 288 ГБ памяти, 8 ТБ/с пропускной способности), существующее ПО не может раскрыть потенциал железа. Текущие решения, включая AITER, PyTorch и компиляторы Triton, Mojo и TileLang, демонстрируют лишь 24-30% от максимальной производительности, а некоторые требуют ручной оптимизации на ассемблере.

Авторы отмечают, что хотя AMD GPU уже используются в гигаваттных масштабах, их программная экосистема остается хрупкой. Компиляторы страдают от проблем с конфликтами банков памяти, неэффективным использованием регистров и отсутствием поддержки важных функций. HipKittens призван определить принципы, позволяющие достичь пиковых характеристик на AMD, и открыть путь к многосиликонным ИИ-системам, снижая зависимость от одного поставщика оборудования.