AMD GPUs Go Brrr
AMD GPU теперь предлагают передовые показатели производительности, но их потенциал не раскрыт из-за отсутствия зрелого программного обеспечения. Авторы представляют HipKittens - коллекцию программных примитивов для раскрытия возможностей AMD GPU. MI355X имеет 256 вычислительных блоков против 160 у B200, а в некоторых тестах показывает до 10.1 PFLOPS против 9.0 PFLOPS у конкурента. AMD использует чиплетную архитектуру (8 XCD по 32 CU), что создает новые возможности и вызовы для разработчиков.
Оптимизация работы на AMD GPU требует нового подхода: эффективного доступа к памяти, учета особенностей регистрового файла и использования мелкоматричных инструкций. В отличие от NVIDIA, где доминирует специализация волн, на AMD предпочтительны 8-волновые и 4-волновые паттерны ядер. Также необходимо учитывать эффекты NUMA на уровне кэша при планировании работы между блоками потоков.
Комментарии (70)
- @homarp предоставил ссылку на обсуждение HipKittens на Hacker News.
- @alex1138 прокомментировал использование мема "go brr" в контексте Стэнфорда, выразив лёгкую иронию.
- @microtonal указал, что аналогичный термин ("went brr") уже использовался при анонсе ThunderKittens год назад.
Комментарии (20)
- Использование Datalog-подобных систем в разных контекстах: от CozoDB до CodeQL и от Rust до GPU-фреймворков.
- Обсуждение того, какие именно технологии используются в продакшене: от Datomic до CozoDB и от Soufflé до CodeQL.
- Разговор о том, какие технологии используются для запросов к данным: от SQL-подобных до Datalog-подобных.
- Обсуждение того, какие технологии используются для запросов к данным в контексте GPU: CUDA, HIP и SPIR-V.