Hacker News Digest

Тег: #h100

Постов: 2

The G in GPU is for Graphics damnit (ut21.github.io)

Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.

Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.

by sebg • 02 октября 2025 г. в 11:46 • 186 points

ОригиналHN

#gpu#pytorch#triton#llm#machine-learning#parallel-computing#nvidia#h100#apu#rendering

Комментарии (75)

  • Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
  • Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
  • Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
  • Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
  • Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

ОригиналHN

#deepseek#h100#gpu#aws#runpod#cloud-computing#cost-optimization#batch-processing

Комментарии (76)

  • Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
  • Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
  • Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
  • Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
  • Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.