Тег: #h100 — Hacker News Digest

The G in GPU is for Graphics damnit (ut21.github.io)

Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.

Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.

by sebg • 02 октября 2025 г. в 11:46 • 186 points

Оригинал • HN

#gpu #pytorch #triton #llm #machine-learning #parallel-computing #nvidia #h100 #apu #rendering

Комментарии (75)

Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

Оригинал • HN

#deepseek #h100 #gpu #aws #runpod #cloud-computing #cost-optimization #batch-processing

Комментарии (76)

Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.