Hacker News Digest

Тег: #hpc

Постов: 6

Комментарии (21)

  • Обсуждение началось с замечания о том, что ссылка с якорем в обход дубликат-детектора HN указывает на баг в самом HN, который стоит починить.
  • Участники обсуждали, стоит ли TernFS в продакшене на практике, особенно в сравнении с Lustre и CephFS, и упоминались такие темы как лицензия, дисклеймер о поддержке и отсутствии RDMA и страйпинга.
  • Несколько комментаторов отметили, что TernFS не предоставляет никаких преимуществ перед существующими решениями, и что она не является распределённой, а потому не может заменить Lustre, CephFS или даже ZFS.
  • Также было отмечено, что TernFS не имеет никакой фичей, которые бы отличали его от других систем, и что она не является open-source, что делает её непригодной для HPC-сообщества.
  • В конце обсуждение сошлось на то, что TernFS не предоставляет никаких преимуществ перед существующими решениями, не является open-source, и не имеет никаких уникальных фичей, кроме как маркетинговая страница.

Matrix Core Programming on AMD GPUs (salykova.github.io)

Матричные ядра AMD CDNA3 и CDNA4 архитектур ускоряют матричные операции FMA для AI и HPC, особенно эффективны в смешанной точности: входные матрицы используют FP16, FP8 или FP4, а аккумулятор остаётся в FP32 для сохранения точности. На CDNA4 (MI355X) FP8 даёт 32-кратный прирост против FP32, а FP4 и FP6 — до 64-кратного, благодаря новым инструкциям с масштабированием блоков экспонент.

Низкоточные форматы, такие как E4M3 (FP8) или E5M2 (BF8), оптимизируют компромисс между диапазоном значений и точностью за счёт битов экспоненты и мантиссы. Например, E4M3FN представляет числа до ±448 с 3-битной мантиссой, а E5M2 — до ±57344 с 2-битной. Важно учитывать зарезервированные значения для NaN и бесконечностей, которые ограничивают рабочий диапазон.

by skidrow • 04 октября 2025 г. в 21:22 • 94 points

ОригиналHN

#amg-gpus#matrix-multiplication#floating-point#fp16#fp8#fp4#fp32#cdna#llm#hpc

Комментарии (4)

  • Радость по поводу увеличения публикаций об использовании аппаратного ускорения AMD для матричных вычислений и приветствие большего разнообразия в этой области.
  • Критическое мнение о том, что архитектура GPU плохо подходит для матричного умножения из-за особенностей работы потоков и мультипроцессоров.
  • Указание на то, что публикация исходит от сообщества, а не напрямую от AMD, и положительная оценка этого факта.
  • Контраргумент о том, что матричное умножение не должно вызывать неэффективность выполнения на SIMT-архитектуре из-за ветвления.

Why is Japan still investing in custom floating point accelerators? (nextplatform.com)

  • Япония продолжает финансировать Pezy Computing, создающую энергоэффективные математические ускорители SC4S/SC5, способные заменить GPU в HPC и ИИ.
  • SC4S: 2 048 ядер, 8 TFLOPS FP64, 200 Вт, 40 нм; SC5: 16 384 ядер, 64 TFLOPS FP64, 400 Вт, 7 нм; оба используют SIMD и обходятся без HBM, охлаждаясь жидкостью.
  • Ускорители уже стоят в 6-8 системах ТОП500; пиковая энергоэффективность 32 GFLOPS/Вт.
  • Драйверы OpenCL/CUDA-аналог ZCL, компиляторы Fortran/C++ готовы; в 2026-2027 ждут SC6 (128 TFLOPS FP64, 7 нм) и SC7 (E级, 3 нм).
  • Цель: 10× экономия энергии и долгая независимость от NVIDIA/Intel.

by rbanffy • 05 сентября 2025 г. в 18:27 • 196 points

ОригиналHN

#hpc#fp64#gpu#nvidia#opencl#cuda#fortran#c++#supercomputing

Комментарии (74)

  • Япония развивает собственные HPC-акселераторы (Pezy и др.), ориентированные на FP64 и традиционные суперкомпьютерные задачи, а не на ИИ-низкоточность.
  • Эти чипы создаются под кластеры с жидкостным охлаждением и продаются не поштучно, а целыми стойками.
  • Производительность FP64 у Pezy конкурентна с NVIDIA, но энергоэффективность и программное окружение NVIDIA пока непревзойдены.
  • Японские компании и государство инвестируют в HPC-экосистему, чтобы сохранить технологический суверенитет и не зависеть от американских GPU.
  • Участники обсуждают, насколько целесообразно переключение на альтернативные форматы чисел (posits) и почему правительства продолжают финансировать «собственных лошадей» несмотря на риск провала.

Google's Liquid Cooling (chipsandcheese.com) 🔥 Горячее 💬 Длинная дискуссия

Google: жидкостное охлаждение TPU в дата-центрах
Вода проводит тепло в 4000 раз лучше воздуха, поэтому Google с 2018 г. развивает жидкостное охлаждение для TPU. Система масштабируется до стоек: шесть CDU-распределителей охлаждают жидкость, как насос-радиатор в ПК; один модуль всегда в резерве для обслуживания без простоя.

CDU переносит тепло из замкнутого контура с антифризом в фасилити-водопровод; жидкости не смешиваются. Циркуляция идёт последовательно через чипы, поэтому расчёт мощности ведут по самому горячему (последнему) элементу цепи.

Для TPUv4 применён bare-die cold plate без крышки, как «delid» у энтузиастов, что повышает теплоотдачу на 60 %.

by giuliomagnifico • 25 августа 2025 г. в 17:57 • 374 points

ОригиналHN

#google#tpu#data-centers#liquid-cooling#hpc#thermal-management#antifreeze#heat-utilization

Комментарии (158)

  • В обсуждении подчёркивается, что гипермасштабные дата-центры Google всё больше напоминают не «компьютерный», а «промышленный тепло- и водо-менеджмент» бизнес.
  • Участники вспоминают, что жидкостное охлаждение применялось десятилетиями в мейнфреймах и HPC-кластерах, поэтому «новизна» Google вызывает споры.
  • Поднимается вопрос утилизации тепла: от снабжения теплиц и бассейнов до городских систем отопления.
  • Обсуждаются экономика и причины перехода на жидкостное охлаждение: рост плотности мощности чипов, дорогая площадь ЦОД и потери на вентиляцию.
  • Некоторые участники критикуют Google за «истощение доверия» и считают описанные технологии «не особо новыми».

Non-Uniform Memory Access (NUMA) is reshaping microservice placement (codemia.io)

Codemia
Подготовка к систем-дизайн-интервью через практику:
Начать | Блог | Системный дизайн

Юридика
Условия | Конфиденциальность | Контакт

Соцсети
Twitter | LinkedIn

by signa11 • 18 августа 2025 г. в 01:40 • 78 points

ОригиналHN

#numa#microservices#hpc#aws#gcp#kubernetes#linux

Комментарии (24)

  • Обсуждение подтверждает: для HPC, высоконагруженных и чувствительных к задержкам систем NUMA-распределение критично, и ручное pinning процессов/потоков к нужным узлам остаётся основным способом добиться стабильной производительности.
  • В публичных облаках (AWS, GCP) NUMA-топология скрыта, VM часто выглядят как однонодовые UMA; полезны lscpu, lstopo, cpu-latency, но настроек управления NUMA почти нет.
  • Сообщество делится инструментами: mpibind, sched_ext, DAMON, fake NUMA, идеями эмуляции NUMA даже на Raspberry Pi 5.
  • Kubernetes уже умеет NUMA-affinity, но вручную выбирать 64-ядерный инстанс вместо 96-ядерного (чтобы не пересекать сокеты) всё равно приходится самим.
  • Крайняя альтернатива — односокетные серверы с NPS=1: «равномерно медленно», но без головной боли.

PCIe 8.0 announced by the PCI-Sig will double throughput again (servethehome.com) 💬 Длинная дискуссия

PCI-SIG анонсировала PCIe 8.0

  • Пропускная способность вдвое выше PCIe 7.0: до 256 ГТ/с на линию.
  • Технология: PAM4, 32 ГТ/с, 0,5 В амплитуда, < 1 Вт/лейн энергопотребление.
  • Обратная совместимость с предыдущими поколениями.
  • Спецификация выйдет в 2027 г., первые продукты — 2028–2029 гг.
  • Цели: ИИ-акселераторы, HPC, NVMe-накопители, 800 Гбит/с сети.

by rbanffy • 09 августа 2025 г. в 22:41 • 160 points

ОригиналHN

#pci-express#pam4#llm#hpc#nvme#datacenters#gpu#cpu#ram#pci-sig

Комментарии (188)

  • Кто-то предлагает «перевернуть» архитектуру: пусть GPU-PCB станет материнской платой, а CPU с памятью встаёт в PCIe-слот.
  • Обсуждают, что PCIe-спецификация всегда на три поколения впереди реальных продуктов: сейчас в работе уже Gen 8.
  • Пользователи жалуются на нехватку линий PCIe в десктопах и мечтают о GPU-сокете с собственными слотами RAM.
  • EE и другие специалисты считают это скорее проблемой экосистемы и совместимости, чем чисто инженерной.
  • Упоминают, что в дата-центрах (DGX, DPU, NVMe-«без-сервера») похожая идея уже реализована.