The G in GPU is for Graphics damnit
Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.
Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.
Комментарии (75)
- Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
- Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
- Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
- Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
- Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.