Hacker News Digest

15 ноября 2025 г. в 02:06 • hazyresearch.stanford.edu • ⭐ 216 • 💬 70

OriginalHN

#amd#gpu#hip#parallel-computing#high-performance-computing#numa#compute-units#chiplet-architecture#go

AMD GPUs Go Brrr

AMD GPU теперь предлагают передовые показатели производительности, но их потенциал не раскрыт из-за отсутствия зрелого программного обеспечения. Авторы представляют HipKittens - коллекцию программных примитивов для раскрытия возможностей AMD GPU. MI355X имеет 256 вычислительных блоков против 160 у B200, а в некоторых тестах показывает до 10.1 PFLOPS против 9.0 PFLOPS у конкурента. AMD использует чиплетную архитектуру (8 XCD по 32 CU), что создает новые возможности и вызовы для разработчиков.

Оптимизация работы на AMD GPU требует нового подхода: эффективного доступа к памяти, учета особенностей регистрового файла и использования мелкоматричных инструкций. В отличие от NVIDIA, где доминирует специализация волн, на AMD предпочтительны 8-волновые и 4-волновые паттерны ядер. Также необходимо учитывать эффекты NUMA на уровне кэша при планировании работы между блоками потоков.