AMD GPUs Go Brrr
AMD GPU теперь предлагают передовые показатели производительности, но их потенциал не раскрыт из-за отсутствия зрелого программного обеспечения. Авторы представляют HipKittens - коллекцию программных примитивов для раскрытия возможностей AMD GPU. MI355X имеет 256 вычислительных блоков против 160 у B200, а в некоторых тестах показывает до 10.1 PFLOPS против 9.0 PFLOPS у конкурента. AMD использует чиплетную архитектуру (8 XCD по 32 CU), что создает новые возможности и вызовы для разработчиков.
Оптимизация работы на AMD GPU требует нового подхода: эффективного доступа к памяти, учета особенностей регистрового файла и использования мелкоматричных инструкций. В отличие от NVIDIA, где доминирует специализация волн, на AMD предпочтительны 8-волновые и 4-волновые паттерны ядер. Также необходимо учитывать эффекты NUMA на уровне кэша при планировании работы между блоками потоков.