Hacker News Digest

Тег: #nvidia

Постов: 47

SoftBank sells its entire stake in Nvidia (cnbc.com)

by mfiguiere • 11 ноября 2025 г. в 07:32 • 246 points

ОригиналHN

#softbank#nvidia#openai

Комментарии (143)

  • SoftBank продал весь пакет акций Nvidia на $5.83 млрд, что вызвало дискуссию о «пузыре» и времени его лопания.
  • Участники обсуждают, насколько этот шаг сигнализирует о «пузыре» и как это соотносится с историческими примерами SoftBank.
  • Сообщество также обсуждает, что продажа может быть связана с необходимостью финансировать OpenAI, и что это может быть индикатором «пузыря».
  • Некоторые комментаторы подчеркивают, что это может быть просто хорошо сработанная сделка, и что нельзя чрезмерно интерпретировать это как сигнал к покупке или продаже.

Linux gamers on Steam cross over the 3% mark (gamingonlinux.com) 🔥 Горячее 💬 Длинная дискуссия

Доля Linux-геймеров на Steam наконец преодолела психологически важный порог в 3%, достигнув 3.05% по данным опроса за октябрь 2025 года. Этот рост на 0.41% стал возможен благодаря устойчивому тренду и окончанию поддержки Windows 10, что побудило больше пользователей попробовать Linux. Windows по-прежнему доминирует с долей 94.84%, а macOS занимает 2.11%.

Несмотря на скромные на первый взгляд проценты, это уже миллионы пользователей. По последним официальным данным Valve за 2022 год, месячная активная аудитория Steam составляла около 120 миллионов, что означает более 4 миллионов Linux-геймеров. С учетом роста платформы и популярности Steam Deck, продающегося миллионами копиями, реальное число вероятно еще выше. Среди дистрибутивов лидирует SteamOS Holo с 27.18%, за которым следуют Arch Linux (10.32%) и Linux Mint (6.65%).

by haunter • 02 ноября 2025 г. в 18:54 • 653 points

ОригиналHN

#linux#steam#gaming#proton#steamos#arch-linux#linux-mint#nvidia#twitter

Комментарии (383)

  • Пользователи обсуждают переход с Windows на Linux для игр, отмечая, что большинство игр теперь работает через Proton, и что Steam Deck способствует этому.
  • Некоторые упоминают, что единственное, что остаётся в Windows, — это играть в игры с античитом, так как Easy Anti-Cheat и подобные системы не работают под Linux.
  • Участники также обсуждают, что, несмотря на то, что Linux-совместимость значительно улучшилась, всё ещё есть проблемы с драйверами, особенно с NVIDIA.
  • Некоторые отмечают, что, несмотря на то, что Linux-совместимость значительно улучшилась, всё ещё есть проблемы с драйверами, особенно с NVIDIA.
  • Также упоминается, что, хотя большинство игр теперь работает на Linux, всё ещё есть проблемы с некоторыми играми, которые не работают или имеют проблемы.

Helion: A high-level DSL for performant and portable ML kernels (pytorch.org)

Helion — это высокоуровневый язык для создания производительных и переносимых ML-ядер, разработанный командой PyTorch в Meta. Он разрешает конфликт между производительностью и удобством, компилируя Python-встроенный DSL в автоматически настраиваемый код Triton. Helion создает новый уровень абстракции, сочетающий простоту PyTorch с производительностью низкоуровневых языков, автоматизируя рутинные задачи вроде индексации тензоров и управления памятью. Это позволяет разработчикам сосредоточиться на алгоритмической логике, а не на аппаратно-специфичных деталях.

Текущие языки вынуждают выбирать между контролем и производительностью: CUDA дает максимум контроля, но требует значительных усилий; Triton — шаг вперед, но все еще требует ручной настройки; PyTorch прост, но ограничен в детальном контроле. Программная модель Helion, описываемая как "PyTorch с тайлами", минимизирует шаблонный код и использует знания разработчиков в PyTorch. Типичное ядро Helion состоит из двух взаимодополняющих частей, что упрощает создание правильных и эффективных ядер.

by jarbus • 02 ноября 2025 г. в 06:21 • 140 points

ОригиналHN

#pytorch#triton#cuda#machine-learning#deep-learning#dsl#nvidia#amazon

Комментарии (47)

  • Helion позиционируется как более высокоуровневая альтернатива Triton, упрощая написание кода за счет автоматического автотюнинга, в отличие от других DSL (Gluon, CuTe), которые предлагают больше контроля на низком уровне.
  • Основные проблемы включают длительный автотюнинг (до 10+ минут), отсутствие полноценной поддержки Python-отладки (автодополнение, точки останова) и сложность выбора между множеством технологий (Triton, Gluon, JAX Pallas и др.).
  • Несмотря на рост высокоуровневых фреймворков, низкоуровневые оптимизации остаются критичными для новых архитектур моделей (например, FlashAttention, MXFP4) и аппаратных платформ (NVIDIA, AMD).
  • Споры о релевантности CUDA: мнения расходятся от его "устаревания" до сохранения доминирующей роли в экосистеме на годы вперед из-за зрелости инструментов и сообщества.
  • Пользователи отмечают, что Helion может расширить круг разработчиков, способных писать эффективные ядра, но сомневаются в его преимуществах перед Triton/Gluon без явного выигрыша в производительности или простоте.

Nvidia takes $1B stake in Nokia (cnbc.com) 🔥 Горячее 💬 Длинная дискуссия

by kjhughes • 28 октября 2025 г. в 15:53 • 259 points

ОригиналHN

#nvidia#nokia#llm#gpu#investment#market

Комментарии (164)

  • Nvidia больше похож на суверенный инвестиционный фонд, чем на обычную компанию, и его деньги влияют на политику США.
  • Nvidia и Nokia делают ставку на то, что AI-оборудование будет востребовано дольше, чем кажется, и поэтому они инвестируют в инфраструктурные компании.
  • Пока что рынок не может оценить это, потому что он не может оценить будущий рост, и поэтому он оценивает компании по их доходам от продажи GPU, что создает иллюзию, что Nvidia стоит 3 триллиона.
  • Но если рынок проснется, то это может привести к катастрофе, подобной той, что может вызвать кризис в 2008 году.
  • И в то же время, Nvidia может быть национализирована, потому что она может оказаться критически важной для национальной безопасности.

Show HN: Cuq – Formal Verification of Rust GPU Kernels (github.com)

Cuq — это фреймворк, преобразующий MIR (промежуточное представление Rust) в Coq для формальной семантики и верифицированного перевода Rust-ядер GPU. Проект нацелен на PTX (язык ассемблера NVIDIA) и обеспечивает математически строгую основу для GPU-программирования на Rust.

Фреймворк позволяет формально доказывать свойства GPU-кода и обеспечивает верифицированный перевод из Rust в PTX. Это критически важно для безопасности и надежности вычислений на GPU, где ошибки могут иметь серьезные последствия. Cuq заполняет пробел между высокоуровневым Rust-кодом и низкоуровневым GPU-исполнением, предоставляя формальные гарантии корректности преобразований.

by nsomani • 22 октября 2025 г. в 19:38 • 82 points

ОригиналHN

#rust#cuda#ptx#coq#formal-verification#gpu-programming#nvidia#github

Комментарии (50)

  • Проект, который переводит MIR Rust в Coq для формальной верификации ядра CUDA, вызвал бурную дискуссию из-за имени «cuq».
  • Участники спорят, звучит ли название как «кук» или «кью-кью»; критика имени превратилась в обсуждение культурных различий.
  • Некоторые предлагают переименовать проект в «rocuda», «rocq» или «rocq», чтобы избежать нежелательных коннотаций.
  • Автор отвечает, что имя строится на словах CUDA и Coq, и что он не осознавал двусмысленность; вопрос о переименовании остаётся открытым.
  • Несмотря на спор, техническая ценность проекта в том, что он может формально верифицировать параллельные вычисления и уменьшить гонки за счёт формального доказательства корректности.

Starcloud (blogs.nvidia.com) 💬 Длинная дискуссия

Стартап Starcloud, участник программы NVIDIA Inception, выводит в космос данные центры, обещая десятикратное снижение энергозатрат по сравнению с наземными аналогами. Их первый спутник Starcloud-1 размером с небольшой холодильник будет запущен в ноябре и станет первым в истории космоса, где установят передовой GPU NVIDIA H100. Спутник обеспечит в 100 раз большую вычислительную мощность, чем любые предыдущие космические операции. Компания планирует построить орбитальный дата-центр мощностью 5 гигаватт с солнечными панелями размером примерно 4х4 километра.

В космосе дата-центры смогут использовать вакуум как бесконечный теплоотвод, устраняя необходимость в водяном охлаждении и экономя ресурсы Земли. "В космосе вы получаете почти неограниченную возобновляемую энергию по низкой стоимости", - отмечает сооснователь и CEO Starcloud Филип Джонстон. По его прогнозу, через 10 лет большинство новых дата-центров будут строиться в космосе. Ранние применения включают анализ данных наблюдения Земли для обнаружения пожаров, прогнозирования погоды и реагирования на аварийные сигналы.

by jonbaer • 22 октября 2025 г. в 11:23 • 142 points

ОригиналHN

#nvidia#gpu#data-centers#space#renewable-energy#solar-power#satellites

Комментарии (189)

  • Проект Starline/Nvidia предлагает запускать дата-центры в космосе, что вызывает скепсис из-за проблем с охлаждением, радиацией и стоимостью доставки.
  • Критики указывают, что вместо радиаторов размером с город, проще было бы просто не тратить энергию на обработку и передачу данных.
  • Сомнения вызывает и то, что никакой реальной инфраструктуры для обслуживания таких центров не существует, а также отсутствие ясного плана, как именно они будут запускаться и обслуживаться.
  • Некоторые комментаторы также поднимают вопросы о том, что при нынешнем уровне технологий это может быть просто невозможно.

Evaluating the Infinity Cache in AMD Strix Halo (chipsandcheese.com)

AMD Strix Halo — флагманский мобильный чип AMD из серии Ryzen AI MAX, сочетающий 16 ядер Zen 5 с мощной iGPU на 20 RDNA 3.5 Workgroup Processors. Особенностью чипа является 32 МБ Infinity Cache (MALL), который работает с 256-битным интерфейсом LPDDR5X-8000. Эта технология, представленная ещё в RDNA2, ранее была сложно оценить из-за ограниченных инструментов мониторинга производительности AMD, которые не предоставляли данных выше L2 кэша.

Strix Halo уникален тем, что предоставляет доступный программный счётчик производительности DATA_BW, позволяющий отслеживать трафик на различных уровнях. Автору, благодаря предоставленному ASUS ROG Flow Z13, удалось определить идентификаторы экземпляров Infinity Fabric, которые AMD не документировала. Сравнение трафика на уровнях Coherent Stations (CS) и Unified Memory Controllers (UMC) позволил создать методику оценки эффективности Infinity Cache — разница между этими показателями служит индикатором хитов в кэш-памяти.

by zdw • 22 октября 2025 г. в 04:20 • 130 points

ОригиналHN

#amd#ryzen#zen-5#rdna-3.5#infinity-cache#cuda#rocm#nvidia

Комментарии (54)

  • AMD представляет Strix Halo как игровой чип, но в дискуссии подчеркивается, что у него нет поддержки CUDA и ROCm, что делает его непригодным для локального ИИ.
  • Пользователи жалуются на отсутствие документации, отсутствие поддержки и отсутствие программного обеспечения, что делает его непригодным для разработки ИИ.
  • В то же время, AMD продолжает позиционировать его как "первый процессор для ИИ ПК", хотя в реальности он не может запускать большинство моделей из-за отсутствия CUDA и ROCm.
  • Обсуждение также поднимает вопрос о том, что AMD не предоставляет никаких инструментов для разработки ИИ, в отличие от Nvidia, которая предоставляет CUDA и cuDNN.

Getting DeepSeek-OCR working on an Nvidia Spark via brute force with Claude Code (simonwillison.net)

by simonw • 20 октября 2025 г. в 17:24 • 184 points

ОригиналHN

#pytorch#cuda#nvidia#python#deepseek-ocr

Комментарии (41)

  • Обсуждение в основном вращается вокруг проблемы установки и совместимости PyTorch/CUDA, причем участники отмечают, что «просто поставить pip install torch» редко работает из-за несовпадающих бинарников и отсутствия удобного менеджера зависимостей.
  • Несколько участников подчеркивают, что NVIDIA, будучи вендором и железа и драйверов, предоставляет довольно устаревшие сборки PyTorch, что вызывает трудности даже при попытке запустить тестовый «hello world» на свежей ОС.
  • Участники также обсуждают, что вместо того, чтобы тратить время на «собирание» PyTorch, можно было бы просто взять готовый wheel-файл, который бы с большей вероятностью был бы совместим с готовой CUDA-версией.
  • Некоторые комментаторы также упоминают, что вместо того, чтобы тратить время на «сборку» PyTorch, можно было бы просто взять готовый wheel-файл, который бы с большей вероятностью был бы совместим с готовой CUDA-версией.

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.

Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.

Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.

by hd4 • 20 октября 2025 г. в 12:31 • 501 points

ОригиналHN

#alibaba-cloud#nvidia#gpu#llm#cloud-computing#deepseek#qwen

Комментарии (286)

  • Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
  • US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
  • Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
  • Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
  • Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.

Nvidia has produced the first Blackwell wafer on US soil (xda-developers.com)

by kristianp • 20 октября 2025 г. в 02:12 • 95 points

ОригиналHN

#nvidia#chip-manufacturing#chips-act#supply-chain#automotive-industry#defense

Комментарии (27)

  • Обсуждение поднимает вопрос о целесообразности: высокие зарплаты в США, дороговизна всего остального и возможность конкурировать с TSMC и Samsung.
  • Поднимается вопрос о том, что это может быть политически мотивировано, а не экономически.
  • Участники обсуждают, что стоимость фабрики и автоматизация делают трудовые затраты небольшими в контексте всего процесса.
  • Обсуждается, что это может быть частью более широкой стратегии "переноса производства обратно в США", и что это может быть связано с законом CHIPS Act.
  • Также поднимается вопрос о том, что это может быть попыткой обеспечить цепочку поставок для обороны и автопрома, и что это может быть связано с политикой Трампа.

A kernel stack use-after-free: Exploiting Nvidia's GPU Linux drivers (blog.quarkslab.com)

Анонимный пользователь отправил ссылку на статью в Hacker News, где подробно разбираются две уязвимости в драйверах NVIDIA. Вместо того чтобы просто пересказывать статью, я напишу краткий и точный пересказ в двух абзацах, как ты и просил.

В драйверах NVIDIA для Linux обнаружены две уязвимости: одна приводит к разыменованию нулевого указателя, другая — к использованию памяти после освобождения. Обе позволяют локальному непривилегированному пользователю выполнить код на уровне ядра. Уязвимости были исправлены NVIDIA в октябре 2025 года.

Исследователи из Quarkslab детально изучили вторую уязвимость (CVE-2025-23280), которая затрагивает функцию threadStateInit в модуле nvidia.ko. Уязвимость позволяет перезаписать структуры в ядерной памяти, что в конечном итоге приводит к выполнению произвольного кода. Для эксплуатации уязвимости использовались специально созданные вызовы ioctl, которые манипулируют кеш-памятью и таблицами страниц, что позволяет обходить защиту KASLR и получать примитивы чтения/записи. В процессе эксплуатации также использовались возможности Linux по управлению памятью, такие как vmalloc и fork, для повышения надежности атаки.

by mustache_kimono • 15 октября 2025 г. в 13:52 • 152 points

ОригиналHN

#linux#nvidia#gpu#kernel#ioctl#vmalloc#kaslr#exploit#security#open-source

Комментарии (17)

  • NVIDIA просит отложить публикацию уязвимостей до января 2026 года, что выходит за рамки стандартного 90-дневного цикла раскрытия.
  • Quarkslab отвергла просьбу, указав, что уязвимости были раскрыты в июне и что отсутствие фиксов в драйвере для Jetson Thor нарушает соглашение о ответственном раскрытии.
  • Обсуждение выявило, что драйверы NVIDIA остаются уязвимыми, а их закрытый характер мешает сообществу оценить и предложить патчи.
  • Участники подчеркнули, что открытые модули ядра были бы защищены от таких багов, если бы драйвер был открыт.
  • В итоге, дискуссия подчеркнула, что ответственное раскрытие и открытый код могли бы предотвратить подобные ситуации в будущем.

Nvidia DGX Spark: great hardware, early days for the ecosystem (simonwillison.net)

NVIDIA представила DGX Spark - настольный "суперкомпьютер" для ИИ размером с Mac mini, стоимостью около $4,000. Внутри скрывается ARM64-система с 20-ядерным процессором, 128 ГБ ОЗУ и 3.7 ТБ SSD, а также мощный GPU NVIDIA GB10 на архитектуре Blackwell с 119.68 ГБ памяти. Устройство нацелено на исследователей ИИ, предназначено как для обучения, так и для запуска моделей.

Основная проблема - совместимость CUDA с ARM64. Большинство библиотек и туториалов предполагают x86-архитектуру, что создает множество сложностей при настройке. Автору удалось найти PyTorch 2.7 для CUDA на ARM, но не для версии 2.8. NVIDIA пытается упростить задачу через официальные Docker-контейнеры, а за последний недобю опубликовала обширную документацию, которой не хватало изначально.

by GavinAnderegg • 15 октября 2025 г. в 00:49 • 146 points

ОригиналHN

#nvidia#dgx-spark#cuda#arm64#pytorch#docker#gpu#llm#machine-learning#blackwell

Комментарии (85)

  • Обсуждение в основном вращается вокруг сравнения DGX Spark с другими решениями: пользователи отмечают, что при цене в $70 000 он уступает RTX 5090 в производительности и даже RTX 4090, а единственное преимущество — 128 ГБ видеопамяти — ограничено пропускной способностью, что делает его неэффективным для инференса больших моделей.
  • Участники также поднимают вопросы о цене, отсутствии DisplayPort и возможности подключения к обычному монитору, а также о том, что DGX Spark не может использоваться для обучения из-за ограниченной памяти и отсутствия NVLink.
  • Некоторые комментаторы сравнивают его с MacBook Pro на Apple Silicon, отмечая, что ноутбук дешевле и при этом предлагающий 128 ГБ единой памяти может быть более практичен для инференса.
  • Также обсуждается, что NVIDIA в целом не предоставляет нужного ПО для ARM64, что делает его менее привлекательным, и что в целом экосистема CUDA вокруг ARM64 остается сырой.

America is now one big bet on AI (ft.com)

Американский рынок всё больше превращается в единую ставку на искусственный интеллект. Инвесторы концентрируют капиталы в технологических гигантах, таких как Nvidia и Microsoft, ожидая взрывного роста благодаря ИИ. Это создаёт значительные риски: если ожидания не оправдаются, коррекция может быть резкой.

Концентрация инвестиций в узкий сектор напоминает пузырь доткомов, но масштабы сегодня больше. Рост зависит от реального внедрения ИИ в бизнес-процессы, что пока отстаёт от ажиотажа. Диверсификация снижается, делая рынок уязвимым к любым негативным новостям в сфере технологий.

by saubeidl • 07 октября 2025 г. в 13:18 • 76 points

ОригиналHN

#artificial-intelligence#nvidia#microsoft#investment#market#llm

Комментарии (41)

  • Инвестиции в ИИ составляют значительную долю роста ВВП США, но вопрос о их окупаемости и устойчивости роста остается открытым.
  • Многие участники считают текущую ситуацию "пузырем", основанным на спекуляциях и завышенных ожиданиях, а не на реальной прибыльности.
  • Обсуждается роль ИИ как инструмента контроля и власти, а не просто экономического актива, и его потенциальное влияние на рынок труда.
  • Отмечается зависимость рынка от институциональных инвесторов (пенсионные фонды) и риск обвала при массовом выводе средств.
  • Подчеркивается глобальный характер гонки за ИИ, где отказ от инвестиций может привести к потере конкурентного преимущества.

AMD signs AI chip-supply deal with OpenAI, gives it option to take a 10% stake (reuters.com) 🔥 Горячее 💬 Длинная дискуссия

AMD заключила сделку с OpenAI о поставках чипов для искусственного интеллекта, предоставив также опцион на приобретение 10% доли в компании. Это стратегическое партнёрство усиливает позиции AMD на рынке AI-чипов, где доминирует NVIDIA, и обеспечивает OpenAI доступ к передовым аппаратным решениям для разработки и масштабирования своих моделей.

Опцион на долю демонстрирует глубокую интеграцию интересов: AMD получает ключевого клиента и потенциального инвестора, а OpenAI — влияние на поставщика и приоритетный доступ к технологиям. Это может ускорить инновации в области аппаратного обеспечения для ИИ и снизить зависимость от единственного поставщика.

by chillax • 06 октября 2025 г. в 12:17 • 380 points

ОригиналHN

#amd#openai#llm#gpu#nvidia#cuda

Комментарии (309)

  • AMD предоставила OpenAI опцион на покупку 10% своих акций по цене $0.01 за акцию при выполнении определенных условий
  • Сделка призвана стимулировать OpenAI к закупкам GPU AMD на сумму до $100 млрд и совместной разработке ПО для AI-чипов
  • Рыночная капитализация AMD выросла примерно на $100 млрд после анонса, что частично компенсирует стоимость опциона
  • Многие участники обсуждения расценивают сделку как признак финансового пузыря и циркулярных денежных потоков в AI-индустрии
  • Партнерство рассматривается как стратегический ход для создания альтернативы доминированию NVIDIA и CUDA

Circular Financing: Does Nvidia's $110B Bet Echo the Telecom Bubble? (tomtunguz.com)

Nvidia инвестирует $110 млрд в OpenAI и другие AI-стартапы через венчурное финансирование, что напоминает стратегию Lucent во время пузыря доткомов. Lucent тогда выделила $8,1 млрд клиентам, которые покупали её оборудование, но после краха 47 телеком-компаний обанкротились, а до 80% кредитов не вернулись. Сейчас Nvidia рискует ещё больше: её обязательства составляют 85% выручки против 20% у Lucent, а 39% доходов зависят всего от двух клиентов.

Новизна ситуации в том, что $10+ млрд долгов обеспечены залогом в виде GPU, с предположением, что их стоимость сохранится на 4–6 лет. Крупные облачные провайдеры уже удлинили сроки амортизации оборудования до 6 лет, но Amazon недавно сократил их до 5, что может сигнализировать о переоценке рисков. Если спрос на AI-инфраструктуру замедлится, это может создать цепную реакцию defaults, особенно среди стартапов, зависящих от финансирования поставщиков.

by miltava • 04 октября 2025 г. в 13:06 • 180 points

ОригиналHN

#llm#venture-capital#gpu#cloud-computing#amazon#microsoft#google#agi#vendor-financing#nvidia

Комментарии (147)

  • Сравнение текущей ситуации с пузырем телекоммуникаций 90-х: есть как сходства (масштабные инвестиции в инфраструктуру, риск перепроизводства), так и ключевые различия (финансовая устойчивость Nvidia vs. мошенничество Lucent).
  • Главный риск для Nvidia — возможность резкого падения спроса на GPU, если AGI не будет достигнут в ожидаемые сроки (2-5 лет) или если инвесторы потеряют интерес из-за замедления прогресса.
  • Неопределенность долгосрочного спроса: несмотря на текущий ажиотаж, будущее зависит от появления реальных, прибыльных приложений ИИ, а не только от тренировки моделей; возможен избыток мощностей.
  • Роль крупных игроков (Microsoft, Google, Amazon) и их кастомерных чипов как потенциальная угроза монополии Nvidia, а также вопросы учетной политики и вендорного финансирования.
  • Скептицизм относительно способности ИИ самостоятельно решать сложные задачи и кардинально улучшать код без человеческого контроля, что ставит под вопрос оправданность огромных инвестиций.

Microsoft CTO says he wants to swap most AMD and Nvidia GPUs for homemade chips (cnbc.com)

Microsoft планирует постепенно заменить графические процессоры AMD и Nvidia, используемые в своих AI-сервисах, на собственные чипы Maia. Это часть стратегии по снижению зависимости от внешних поставщиков и сокращению затрат на инфраструктуру для машинного обучения. Компания уже тестирует свои чипы в дата-центрах и планирует масштабировать их использование в Azure и других cloud-сервисах.

Переход на собственные решения может значительно сократить расходы на hardware и дать Microsoft больше контроля над производительностью и энергоэффективностью систем. Это также усилит конкуренцию на рынке AI-чипов, где доминируют Nvidia и AMD.

by fork-bomber • 03 октября 2025 г. в 14:48 • 162 points

ОригиналHN

#microsoft#ai-chips#azure#cloud-computing#nvidia#amd#machine-learning#data-centers

Комментарии (118)

  • Microsoft разрабатывает собственные AI-чипы (например, Maia 100) для снижения зависимости от NVIDIA и затрат, хотя и с опозданием по сравнению с Google и Amazon.
  • Участники обсуждают, что создание собственного "кремния" — логичный шаг для крупных дата-центров, но для успеха критически важны разработка ПО и инфраструктуры (как у CUDA от NVIDIA).
  • Высказываются опасения, что уход крупных игроков на собственные чипы может усилить монополию NVIDIA на рынке для остальных или, наоборот, снизить цены на GPU.
  • Поднимается вопрос, является ли производственная мощность (например, TSMC) основным ограничением, а не дизайном чипов.
  • Обсуждаются альтернативные архитектуры для AI, включая аналоговые чипы и специализированные решения для inference.

Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it (github.com) 🔥 Горячее

В пул-реквесте к Triton представлена реализация механизма persistent attention для ускорения работы с большими контекстами в трансформерах. Вместо пересчета ключей и значений для каждого токена механизм сохраняет их в глобальной памяти, что значительно снижает вычислительную нагрузку при обработке длинных последовательностей.

Автор демонстрирует, как это позволяет эффективно работать с контекстами до 128K токенов, избегая квадратичной сложности традиционного внимания. Практический вывод: такой подход открывает путь к более масштабным моделям без пропорционального роста затрат на вычисления.

by mmastrac • 03 октября 2025 г. в 04:21 • 321 points

ОригиналHN

#triton#nvidia#amd#intel#cutlass#attention-mechanism#transformers#gpu#github

Комментарии (141)

  • NVIDIA использует хардкод для оптимизации кода, содержащего "cutlass" в названии, что может быть нестабильным и приводить к скрытым багам.
  • Подобные практики (оптимизации по именам функций или приложений) исторически распространены среди производителей железа и софта (ATI/AMD, Intel, Microsoft) для улучшения бенчмарков, иногда в ущерб качеству.
  • Мотивация таких оптимизаций часто не злонамеренна, а связана с снижением рисков и фокусом на стабильности собственных библиотек, но создаёт новые барьеры.
  • В индустрии существуют разногласия по поводу этичности таких практик, но для графических драйверов тюнинг под конкретные игры стал нормой.
  • Обсуждаются проблемы проприетарного кода (драйверы, прошивки) и затраты общества на обратную разработку вместо сотрудничества.

The G in GPU is for Graphics damnit (ut21.github.io)

Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.

Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.

by sebg • 02 октября 2025 г. в 11:46 • 186 points

ОригиналHN

#gpu#pytorch#triton#llm#machine-learning#parallel-computing#nvidia#h100#apu#rendering

Комментарии (75)

  • Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
  • Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
  • Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
  • Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
  • Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.

We bought the whole GPU, so we're damn well going to use the whole GPU (hazyresearch.stanford.edu) 🔥 Горячее

Исследователи из Hazy Research разработали высокопроизводительный мегаядро для тензорно-параллельного вывода Llama-70B на H100, которое агрессивно перекрывает вычисления, работу с памятью и коммуникацию между GPU. Это позволяет одновременно задействовать различные аппаратные ресурсы: тензорные ядра, модули для нетензорных операций, пропускную способность HBM и NVLink. В интеграции с движком Tokasaurus их решение превосходит SGLang на >22% по общей пропускной способности при обработке 65 536 промптов из ShareGPT.

Ключевая идея — использование интерпретатора инструкций, работающего на каждом SM, который позволяет гибко планировать выполнение разнородных операций. Это обеспечивает перекрытие на нескольких уровнях: внутри SM (память и вычисления), между SM (матричные умножения и нормирование) и между GPU (скрытие задержек связи за счёт специальных потоков). Особенно отмечается простота реализации сложных трансформаций данных между GPU прямо после attention-слоя, что трудно выразить стандартными средствами коммуникации.

by sydriax • 28 сентября 2025 г. в 21:00 • 470 points

ОригиналHN

#gpu#tensor-cores#nvlink#llama#parallel-computing#computational-optimization#nvidia#deep-learning#hbm#gpu-virtualization

Комментарии (94)

  • Обсуждение эффективности использования GPU: использование всех блоков (NVDEC, NVJPG, RT и тензорные ядра) для декомпрессии весов и вычислений, аналогии с оптимизацией под консоли.
  • Проблемы инструментов и драйверов: отставание языков, библиотек и драйверов от возможностей современного железа, сложности компиляторов для гетерогенных систем.
  • Виртуализация и разделение ресурсов GPU: обсуждение MIG, MPS для многопользовательского использования, риски утечки данных и ограничения этих технологий.
  • Сравнение с другими платформами: упоминание Apple Metal и открытости драйверов, потенциал использования GPU для аудиообработки и сигналов.
  • Критика и ирония: сравнение стиля статьи с "Трансгрессия границ", комментарии о "коде, который не предназначен для поддержки" и неожиданно доступных оптимизациях в крупных лабораториях.

We reverse-engineered Flash Attention 4 (modal.com)

Новая версия Flash Attention 4 оптимизирована под архитектуру Blackwell от Nvidia и обещает ~20% прирост скорости по сравнению с предыдущим рекордсменом — закрытыми ядрами внимания в библиотеке cudnn. Хотя официального отчёта нет, исходный код уже доступен, что позволило разобрать его устройство. Главное изменение — не математические трюки (вроде быстрых приближённых экспонент или эффективного онлайн-softmax), а сложная асинхронная конвейеризация операций, напоминающая принципы параллельного программирования из высокопроизводительных систем вроде баз данных или веб-серверов.

Архитектура FA4 построена вокруг обработки «тайлов» — блоков данных, которые потоково считываются из глобальной памяти GPU. Один экземпляр ядра обрабатывает два тайла запросов, последовательно сканируя все ключи и значения, чтобы вычислить взвешенные выходные данные. Это напоминает векторized-сканирование в СУБД. Масштабирование достигается за счёт массового параллельного запуска таких программ по модели «одна программа — много данных». Подход требует глубокой асинхронности и эффективного использования warp-ов, но остаётся интуитивно понятным для инженеров, работавших с конкурентными системами.

by birdculture • 27 сентября 2025 г. в 21:50 • 112 points

ОригиналHN

#flash-attention#gpu#parallel-programming#nvidia#cudnn#high-performance-computing#database-systems#asynchronous-programming#vectorized-scanning

Комментарии (40)

  • Обсуждение термина "reverse engineering" применительно к анализу исходного кода и его пониманию.
  • Критика стиля и структуры блог-поста за избыточные отсылки к исследованиям и недостаток конкретики.
  • Замечания о сложности написания эффективных GPU-кернелов для современного железа и упоминание тренда на "мегакернелы".
  • Запрос рекомендаций по обучающим материалам для начинающих в GPU-программировании.
  • Положительные отзывы о содержании поста и его развлекательном, доступном стиле.

Pop OS 24.04 LTS Beta (system76.com) 🔥 Горячее 💬 Длинная дискуссия

System76 выпустила бета-версию Pop!_OS 24.04 LTS с новой средой рабочего стола COSMIC, полностью разработанной внутри компании. Ключевые изменения включают замену стандартных GNOME-приложений на COSMIC-аналоги: Files, Terminal, Text Editor и Media Player, а также обновлённый магазин приложений COSMIC Store. Для установки требуется отключить Secure Boot в BIOS, рекомендуется минимум 4 ГБ ОЗУ и 16 ГБ места.

Известные проблемы беты: несохранение избранных приложений из предыдущей версии, временное отключение PPA при обновлении, ограниченная поддержка перетаскивания файлов между Wayland и X11-приложениями. Также ожидаются баги в играх и отсутствие экранной подсказки для переключения дисплеев. Выпуск финальной версии намечен после исправления ошибок.

by agluszak • 26 сентября 2025 г. в 09:20 • 352 points

ОригиналHN

#pop-os#cosmic#gnome#wayland#x11#nvidia#secure-boot#arm64

Комментарии (186)

  • Пользователи положительно оценивают новый рабочий стол Cosmic DE за его функциональность, включая панель на всех экранах и улучшенное управление окнами, по сравнению с GNOME.
  • Некоторые пользователи выражают скептицизм относительно готовности Cosmic DE к релизу, отмечая проблемы с драйверами Nvidia, отсутствие поддержки Secure Boot и ARM64, а также сыроватый интерфейс.
  • Многие пользователи успешно используют Pop!_OS на старом оборудовании (например, MacBook Pro 2014 года), хотя иногда требуется ручная настройка Wi-Fi и других компонентов.
  • Обсуждаются преимущества Pop!_OS, такие как предустановленные драйверы Nvidia в Live ISO и режим тайлинга, а также сравнивается Cosmic с другими средами, такими как Hyprland и Sway.
  • Высказываются опасения, что небольшой команде System76 может не хватить ресурсов для долгосрочной поддержки собственной среды рабочего стола, и отмечается медленный темп разработки.

Apple A19 SoC die shot (chipwise.tech)

Первые высококачественные микроскопические снимки чипа Apple A19 из iPhone 17 показывают его структуру, изготовленную по улучшенному 3-нм процессу TSMC N3P. Это обеспечивает повышенную плотность транзисторов, энергоэффективность и умеренный прирост производительности по сравнению с предыдущим поколением.

Архитектура включает гибридные CPU-ядра, обновлённый GPU с увеличенным числом ядер в Pro-версиях, а также улучшенные блоки обработки изображений, нейронный движок и систему управления питанием. Визуализация демонстрирует логические модули, кэш и межсоединения, отражая прогресс Apple в оптимизации полупроводниковых технологий.

by giuliomagnifico • 23 сентября 2025 г. в 19:12 • 121 points

ОригиналHN

#apple#tsmc#n3p#arm#nvidia

Комментарии (58)

  • Пользователи выражают восхищение технологией производства чипов Apple A19, отмечая её сложность и сравнивая с достижениями человечества.
  • Обсуждается отсутствие детального анализа и высококачественных изображений чипа, ссылки ведут на платный контент и видео с артефактами.
  • Затрагиваются технические аспекты: использование Backside Power Delivery, количество транзисторов, размер кристалла и преимущества энергоэффективных ядер.
  • Упоминается переход на новые технологические процессы TSMC и отставание конкурентов, таких как ARM и NVIDIA.
  • Пользователи шутят о найденных "багах" на изображении и делятся своими гипотезами о дизайне чипа.

OpenAI and Nvidia announce partnership to deploy 10GW of Nvidia systems (openai.com) 🔥 Горячее 💬 Длинная дискуссия

by meetpateltech • 22 сентября 2025 г. в 16:10 • 439 points

ОригиналHN

#openai#nvidia#llm#gpu#datacenters#energy-consumption

Комментарии (567)

  • Обсуждение масштабов энергопотребления (10 ГВт) и сравнение его с потреблением целых городов или стран, а также опасения по поводу экологических последствий и нагрузки на энергосистемы.
  • Критика сделки как формы "round tripping" — схемы, при которой NVIDIA инвестирует в OpenAI, чтобы та покупала её же оборудование, искусственно завышая выручку и поддерживая рыночный пузырь.
  • Скептицизм по поводу целесообразности и формулировок партнёрства, воспринятых как бессодержательный корпоративный жаргон и признак пика "AI пузыря".
  • Обсуждение технических деталей: что означает измерение в гигаваттах, сколько чипов это представляет и как это скажется на потребительском рынке GPU.
  • Вопросы о источнике энергии и водных ресурсах для дата-центров, а также о роли регуляторов в управлении этим воздействием.

Intel Arc Celestial dGPU seems to be first casualty of Nvidia partnership (notebookcheck.net)

Intel, похоже, отменяет разработку высокоуровневого десктопного GPU Arc Celestial — первой жертвы партнёрства с Nvidia. В то же время модель Arc B770, относящаяся к архитектуре Battlemage, всё ещё ожидается в текущем квартале, хотя и с ограниченным выпуском и проблемами в производительности, включая неровный фреймрейт.

По данным инсайдеров, B770 сохранит 32 Xe-ядра и 256-битную шину памяти, достигая уровня GeForce RTX 4070, но без поддержки PCIe 5.0. Если Celestial действительно закрыт, это может означать конец самостоятельным десктопным GPU от Intel, что станет ударом по конкуренции на рынке, несмотря на ранее успешный запуск более доступной модели B580.

by LorenDB • 19 сентября 2025 г. в 13:51 • 101 points

ОригиналHN

#intel#nvidia#gpu#arc#battlemage

Комментарии (72)

  • Участники обсуждают заявление CEO Intel о необходимости 50% маржи для новых продуктов и опоздании компании в сфере AI, выражая скептицизм и опасения о будущем Intel.
  • Основная критика направлена на ненадежность источника новости (канал Moore's Law Is Dead), который ранее неоднократно ошибался в прогнозах о судьбе видеокарт Intel Arc.
  • Обсуждается стратегическая ценность подразделения графики (GPU) для Intel как точки входа на рынок и источника внутренних компетенций, несмотря на небольшую долю игрового рынка в сравнении с датацентрами.
  • Высказываются мнения, что отказ от продуктов с низкой маржой может быть ошибкой, так как это мешает загрузке собственных мощностей и долгосрочному росту.
  • Уточняется, что заявление CEO, вероятно, относилось только к опозданию в сфере тренировки AI-моделей (training), оставляя возможность для участия в выводе (inference).

Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs (github.com)

LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.

Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.

by jinqueeny • 18 сентября 2025 г. в 23:48 • 105 points

ОригиналHN

#llama#mistral#lora#rl#gpu#nvidia#text-to-sql#fine-tuning#github#llm

Комментарии (15)

  • Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
  • Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
  • Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
  • Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
  • Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.

Nvidia buys $5B in Intel (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Nvidia и Intel объявили о совместной разработке процессоров Intel x86 RTX SOC для ПК с графикой Nvidia, а также о создании пользовательских серверных процессоров x86 от Nvidia. В рамках масштабной сделки Nvidia приобрела акции Intel на сумму $5 млрд.

by stycznik • 18 сентября 2025 г. в 11:04 • 936 points

ОригиналHN

#nvidia#intel#x86#rtx#soc#gpu#linux

Комментарии (568)

  • Опасения по поводу негативного влияния на конкуренцию: инвестиции Nvidia могут угрожать развитию графического подразделения Intel (Arc), которое сдерживает цены на GPU и важно для Linux-сообщества.
  • Стратегический интерес Nvidia: сделка может быть направлена на получение доступа к производственным мощностям Intel (фабрикам) и созданию гибридных решений (CPU + GPU), а не на прямую конкуренцию на рынке видеокарт.
  • Политический и экономический контекст: инвестиции могут быть продиктованы желанием правительства США поддержать национального производителя полупроводников и диверсифицировать цепочки поставок.
  • Исторические параллели: сравнение со сделкой Microsoft и Apple в 1997 году, которая спасла последнюю, и надежды на аналогичный положительный исход для Intel.
  • Влияние на архитектуру и рынок: возможный сдвиг в сторону интеграции графики в SoC (системы на кристалле) и потенциальные риски для x86-64 лицензирования Intel.

Gluon: a GPU programming language based on the same compiler stack as Triton (github.com)

Навигационное меню GitHub с разделами:

- Платформа: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
- Решения: для предприятий, малых команд, стартапов, некоммерческих организаций
- Ресурсы: статьи по AI, DevOps, безопасности, разработке ПО
- Open Source: спонсоры, проекты, репозитории
- Enterprise: платформа, дополнения
- Цены

Поиск кода, репозиториев, пользователей, issues и pull requests. Возможность сохранения поисковых запросов.

by matt_d • 17 сентября 2025 г. в 19:50 • 75 points

ОригиналHN

#python#cuda#nvidia#triton#gpu#dsl#llm#github

Комментарии (21)

  • NVIDIA Tilus представляет собой низкоуровневый инструмент для контроля над регистрами, возможно, как ответ на Triton, который поддерживает AMD и другие ускорители, угрожая экосистеме CUDA.
  • Название Gluon уже используется несколькими проектами, включая язык для ML от Amazon/Microsoft, UI-тулкит для Java и встраиваемый язык для Rust, что создает путаницу.
  • Gluon от NVIDIA рассматривается как сходный с их же CUTE DSL, что указывает на convergence к оптимальному дизайну Python-based DSL для программирования ядер.
  • Мнения разделились: одних смущает, что «язык» остается кодом на Python, требующим трассировки, другие считают такой подход на основе AST-walker эффективным.
  • Появление Gluon связано со сложностями Triton в достижении высокой эффективности на новых архитектурах NVIDIA, таких как Blackwell.
  • NVIDIA разрабатывает множество DSL, что свидетельствует о их беспокойстве из-за открытых и портируемых альтернатив CUDA.
  • На экосистему CUDA оказывают давление крупные компании, разрабатывающие собственные чипы для AI, чтобы избежать зависимости от NVIDIA.

Alibaba's new AI chip: Key specifications comparable to H20 (news.futunn.com) 🔥 Горячее 💬 Длинная дискуссия

Алибаба представила новый ИИ-чип с характеристиками, сопоставимыми с H20.

by dworks • 17 сентября 2025 г. в 09:45 • 270 points

ОригиналHN

#alibaba#llm#chips#nvidia#cuda#gpu#china#us#asml#litography

Комментарии (274)

  • Китай запретил закупки чипов NVIDIA и стимулирует развитие собственных AI-чипов, чтобы сократить технологический разрыв
  • Китайские чипы (например, от Alibaba) пока уступают флагманским GPU NVIDIA (Blackwell, H100) и сравнимы с более старыми моделями (A100, H20)
  • Ключевым барьером NVIDIA считается не столько hardware, сколько программная экосистема (CUDA), создающая сильную привязку клиентов
  • Экспортные ограничения США вынуждают Китай развивать собственное производство, но возникают проблемы с качеством, совместимостью и производительностью
  • Вопросы вызывают возможности Китая в передовой литографии (EUV) без доступа к оборудованию ASML
  • Часть комментаторов расценивает новости как пропаганду или считает, что успехи Китая основаны на краже IP и господдержке без оглядки на прибыль
  • Сокращение доступа к NVIDIA может замедлить развитие AI в Китае, но также стимулирует глобальную конкуренцию и снижение цен на GPU

Mistral AI raises €1.7B to accelerate technological progress with AI (mistral.ai)

  • Mistral AI привлекла 1,7 млрд € в раунде C при оценке 11,7 млрд €.
  • Инвестор-лидер — ASML; участвуют DST, a16z, NVIDIA и др.
  • Капитал пойдёт на фундаментальные ИИ-исследования и решение сложнейших инженерных задач для стратегических отраслей.
  • Компания сохраняет независимость и продолжит развивать децентрализованные frontier-модели и высокопроизводительную инфраструктуру.

by kgwgk • 09 сентября 2025 г. в 06:50 • 113 points

ОригиналHN

#llm#machine-learning#nvidia#asml#a16z#dst#digital-sovereignty#on-premises

Комментарии (24)

  • Mistral спорят: одни не видят у неё USP, кроме «европейского происхождения», и считают, что она отстала.
  • Другие уверены: цифровой суверенитет ЕС и страх перед американским/китайским доминированием — уже достаточная уникальность.
  • Открытые модели, приватность, on-prem для регулированных индустрий и госзаказов позиционируются как вторичные плюсы.
  • ASML вложила €1,3 млрд в раунд Series C — сигнал, что «лучший европейский вариант» может быть прибыльной нишей без гонки за глобальный фронтир.

Why is Japan still investing in custom floating point accelerators? (nextplatform.com)

  • Япония продолжает финансировать Pezy Computing, создающую энергоэффективные математические ускорители SC4S/SC5, способные заменить GPU в HPC и ИИ.
  • SC4S: 2 048 ядер, 8 TFLOPS FP64, 200 Вт, 40 нм; SC5: 16 384 ядер, 64 TFLOPS FP64, 400 Вт, 7 нм; оба используют SIMD и обходятся без HBM, охлаждаясь жидкостью.
  • Ускорители уже стоят в 6-8 системах ТОП500; пиковая энергоэффективность 32 GFLOPS/Вт.
  • Драйверы OpenCL/CUDA-аналог ZCL, компиляторы Fortran/C++ готовы; в 2026-2027 ждут SC6 (128 TFLOPS FP64, 7 нм) и SC7 (E级, 3 нм).
  • Цель: 10× экономия энергии и долгая независимость от NVIDIA/Intel.

by rbanffy • 05 сентября 2025 г. в 18:27 • 196 points

ОригиналHN

#hpc#fp64#gpu#nvidia#opencl#cuda#fortran#c++#supercomputing

Комментарии (74)

  • Япония развивает собственные HPC-акселераторы (Pezy и др.), ориентированные на FP64 и традиционные суперкомпьютерные задачи, а не на ИИ-низкоточность.
  • Эти чипы создаются под кластеры с жидкостным охлаждением и продаются не поштучно, а целыми стойками.
  • Производительность FP64 у Pezy конкурентна с NVIDIA, но энергоэффективность и программное окружение NVIDIA пока непревзойдены.
  • Японские компании и государство инвестируют в HPC-экосистему, чтобы сохранить технологический суверенитет и не зависеть от американских GPU.
  • Участники обсуждают, насколько целесообразно переключение на альтернативные форматы чисел (posits) и почему правительства продолжают финансировать «собственных лошадей» несмотря на риск провала.

Anthropic raises $13B Series F (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

  • $13 млрд привлекла Anthropic в раунде Series F под руководством ICONIQ; оценка компании — $183 млрд после сделки.
  • В раунде также участвовали Fidelity, Lightspeed, Altimeter, BlackRock, Coatue, Goldman Sachs, GIC, Qatar Investment Authority и другие.
  • С момента запуска Claude в марте 2023 г. выручка выросла до $5 млрд годового темпа (с $1 млрд в январе 2025 г.).
  • Среди 300 тыс. корпоративных клиентов число крупных контрактов (>$100 тыс.) выросло почти в 7 раз за год.
  • Продукты: API, отраслевые решения, Claude Code (>$500 млн выручки за 3 месяца после запуска), Claude Pro.
  • Инвестиции пойдут на расширение мощностей, исследования безопасности и международное развитие.

by meetpateltech • 02 сентября 2025 г. в 16:04 • 523 points

ОригиналHN

#anthropic#iconiq#fidelity#lightspeed#blackrock#coatue#nvidia#gpu

Комментарии (514)

  • Раунд Anthropic вырос с $5 до $13 млрд: участники считают это либо «последним вдохом» пузыря, либо логичным шагом в «гонке вычислений», где решают GPU и электроэнергия.
  • Скептики указывают на отсутствие устойчивой модели монетизации, сжатие маржи и риск повторения Enron; оптимисты сравнивают с YouTube-2006, который тоже сжигал деньги, но выиграл рынок.
  • Несколько комментаторов подчёркивают, что 75 % вливаний уйдёт NVIDIA, а инфраструктурные затраты уже сопоставимы с ВВП небольших стран.
  • В обсуждении звучат экологические и социальные вопросы: «зачем экономить лампочками, если тратишь тераватты на генераторы бесполезного порно».
  • Наконец, многие сетуют, что обычные инвесторы отрезаны от таких сделок: «в 90-х Anthropic уже торговалась бы на NYSE, а Zoomers могут только смотреть со стороны».

With AI Boom, Dell's Datacenter Biz Is Finally Bigger Than Its PC Biz (nextplatform.com)

  • Два варианта у OEM: продавать стек Nvidia (рост выручки, снижение маржи) или остаться без AI-заказов, довольствуясь лишь периодическими продажами серверов Intel/AMD.
  • Dell выбрал первый путь и стал ключевым поставщиком крупнейших AI-кластеров (xAI, CoreWeave), используя «покупай американское» и собственный масштаб.

by rbanffy • 30 августа 2025 г. в 14:48 • 84 points

ОригиналHN

#llm#datacenter#nvidia#intel#amd#dell#servers#cloud#aws

Комментарии (65)

  • Пользователи обсуждают, что Dell выигрывает на всплеске спроса на AI-серверы, несмотря на более высокую цену и «энтерпрайз-поддержку».
  • Ключевые причины выбора Dell: быстрая поставка, надёжные цепочки поставок, гарантия, удобный iDRAC и «не мой кошелёк — моя голова».
  • Некоторые считают, что это очередной пузырь: «графокард-максимизаторы» поглощают ресурсы, а в будущем рынок окажется завален дешёвыми бывшими AI-серверами.
  • Участники спорят, когда лопнет пузырь: прогнозы варьируются от «в любой момент» до «держится до 2026 года и дальше».
  • Есть надежда, что после взрыва спроса появится дешёвая «железка» для домашних лаб и конкуренция для AWS.

Are OpenAI and Anthropic losing money on inference? (martinalderson.com) 🔥 Горячее 💬 Длинная дискуссия

  • Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
  • Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
  • Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.

Пропускная способность

  • Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
  • Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.

Цена за токен

  • Вход: $0,003/млн токенов (почти даром).
  • Выход: $3/млн токенов (реальные деньги).

Почему ограничивают контекст

  • При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
  • Поэтому Claude Code режет контекст до 200 k: дешевле.

Пользовательская экономика

  • ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.

by martinald • 28 августа 2025 г. в 10:15 • 470 points

ОригиналHN

#openai#anthropic#nvidia#gpu#machine-learning#llm#cloud-computing

Комментарии (438)

  • Математика статьи критикуется: расчёт пропускной способности префилла завышен минимум в 1000 раз, а достигаемая MFU превышает физический предел GPU.
  • Участники соглашаются, что «чистая» инференс-операция, без учёта затрат на обучение, может быть прибыльной: Сам Альтман, данные The Information и Epoch AI указывают на gross margin 50–60 %.
  • Основные оговорки: в расчётах не учтены downtime, кэширование, спекулятивное декодирование, KV-cache, а также различия в эффективности между DeepSeek R1 и закрытыми моделями OpenAI/Anthropic.
  • Некоторые стартапы (Cursor, Perplexity) уже страдают от отрицательной маржи из-за дорогих токенов, что подчеркивает разрыв между «оптовой» и «розничной» экономикой.
  • Общий вывод: инференс в вакууме может быть прибыльным, но полная экономика включает обучение, idle-оборудование и кросс-субсидирование, поэтому точные цифры известны только самим компаниям.

Комментарии (282)

  • Пользователи жалуются на отсутствие WWAN-модуля, мелкие стрелки и нехватку клавиш Home/End.
  • Радуются AMD-видеокартам как более «линуксовским», но спорят о проблемах NVIDIA.
  • Цена новой сборки (≈ $4000) вызывает шок: «дороже, чем игровой ROG с RTX 3080».
  • Вопрошают о реальной экономике модульности, сроках поставки в Японию и о OLED-экранах.
  • Любители Linux спрашивают о «из коробки» и просят ThinkPad-стильный trackpoint.

Nvidia DGX Spark (nvidia.com) 💬 Длинная дискуссия

  • DGX Spark — компактный «суперкомпьютер» на базе процессора Grace Blackwell, помещающийся на столе.
  • Поддерживает обучение и инференс ИИ-моделей любого размера благодаря архитектуре Grace Blackwell и 128 ГБ унифицированной памяти.
  • Подключается к DGX Cloud для масштабирования задач и работает в экосистеме NVIDIA AI Enterprise.
  • Поставляется с полным стеком ПО: CUDA, cuDNN, TensorRT, NeMo, RAPIDS и другими фреймворками.
  • Подходит исследователям, стартапам и инженерам, которым нужна локальная мощность без серверной.

by janandonly • 24 августа 2025 г. в 22:35 • 170 points

ОригиналHN

#nvidia#dgx-spark#grace-blackwell#cuda#cudnn#tensorrt#nemo#rapids#ubuntu#linux

Комментарии (176)

  • Jetson Thor и DGX Spark работают на зафиксированном ядре Linux от NVIDIA на Ubuntu 20.04, обновления ограничены, как на китайских SBC.
  • Spark: 1000 FP4-TOPS, 128 ГБ LPDDR5x, 273 ГБ/с пропускная способность, цена $3999; по $/производительность проигрывает 5090 и Thor.
  • Узкое место — низкая пропускная способность памяти: в 4 раза меньше RTX 4090 и в 8 раз меньше M4 Max, что ограничивает обучение и крупные LLM.
  • Устройство позиционируется как devkit для прототипирования и дообучения, а не как универсальный ПК; потребление и дата выхода не раскрыты.
  • Многие считают цену завышенной и ждут сравнения с будущими Mac Studio M4/M5 Ultra и AMD Strix Halo.

A bubble that knows it's a bubble (craigmccaskill.com)

«Пузырь, который знает, что он пузырь»

Сэм Альтман, создатель нынешнего AI-хайпа, сам предупредил: «Инвесторы переоценены». Рынок отреагировал: Nvidia ‑3,5 %, Palantir ‑10 %. MIT: 95 % компаний не видят отдачи от генеративного ИИ. Apollo: оценки выше пиков дот-кома. Fed: >50 % capex США уходит в ИИ.

  • Anthropic: $4,1 млрд при минимальных доходах.
  • Character.AI: $1 млрд / 1,7 млн MAU ≈ $588 за пользователя.
  • Inflection AI: $1,3 млрд → команда ушла в Microsoft, инвесторы остались с пустой оболочкой.

Рэй Далио: «Сейчас как в 1998–1999». Технологии реальны, спекуляции — нет. История повторяется: железные дороги 1840-х, радио 1920-х, дот-ком 1990-х. Перестройка → завтрашняя инфраструктура.

Железнодорожный пузырь 1840-х

3 года: 263 компании, 9 500 миль путей (≈ современная сеть Великобритании). Депозит 10 %, плечо 10×. К 1846 г. железные дороги — 71 % рынка акций. Повышение ставки Банка Англии → маржин-коллы → 85 % просадка, 200 банкротств. Но страна получила сеть, ставшую основой Индустриальной революции.

Дот-ком 1995–2000

NASDAQ +800 %, P/E 200 (норма 15–20). Метрика — «глаза», не деньги. WSJ и другие «столпы здравомыслия» поддались.

by craigmccaskill • 24 августа 2025 г. в 22:02 • 88 points

ОригиналHN

#llm#investment#nvidia#palantir#anthropic#character.ai#inflection-ai#microsoft#dot-com-bubble#gpu

Комментарии (60)

  • Участники спорят, является ли текущий AI-бум уникальным: многие указывают, что и в предыдущих пузырях (South Sea, dot-com) инвесторы прекрасно понимали иррациональность, но надеялись урвать прибыль.
  • Основной риск — быстрое устаревание GPU-инфраструктуры (≈ 5 лет), в отличие от железных дорог или волоконной оптики, что ставит под сомнение «долговечность» остатков после лопания пузыря.
  • Часть комментаторов подчёркивает, что даже «испарившийся» капитал оставляет физические активы: дата-центры, энергетику, знания и процессы, которые могут быть переиспользованы.
  • Другие напоминают, что не все технологии после пузыря становятся массовыми: VR, NFT, блокчейн и 3D-печать поглотили миллиарды, но не изменили жизнь среднего человека.
  • Наконец, спорят о «демократизации инвестиций»: розница пока не имеет доступа к дорогостоящим pre-IPO раундам, поэтому разрушения могут быть менее масштабными, чем в 2000-м.

Writing Speed-of-Light Flash Attention for 5090 in CUDA C++ (gau-nernst.github.io)

Flash Attention на 5090 в CUDA C++

Цель — научиться писать attention-ядро на CUDA C++, чтобы использовать MXFP8/NVFP4 MMA для sm120, чего нет в Triton.
Код: learn-cuda/07_attention.

Бенчмарк (bs=1, heads=8, q=4096, kv=8192, BF16, 5090@400 W, CUDA 12.9, SOL 209.5 TFLOPS):

ядро TFLOPS %SOL
F.sdpa (Flash) 186.73 89.13
F.sdpa (CuDNN) 203.61 97.19
flash-attn 190.58 90.97
v1 (basic) 142.87 68.20
v2 (swizzle) 181.11 86.45
v3 (2-stage) 189.84 90.62
v4 (ldmatrix.x4) 194.33 92.76
v5 (pipe) 197.74 94.39

Алгоритм Flash Attention 2

Псевдокод:

scale = DIM**-0.5
for b, tile_Q:
    tile_O = 0
    tile_Q = load(Q[b, tile_Q])
    for tile_KV:
        tile_K = load(K[b, tile_KV])
        tile_S = tile_Q @ tile_K.T * scale
        online_softmax(tile_S)  # in-place
        tile_V = load(V[b, tile_KV])
        tile_O += tile_S @ tile_V
    store(O[b, tile_Q])

head_dim=128 помещается в регистры.


v1 — базовая версия

  1. G2S: cp.async.ca.shared.global 128-битными транзакциями.
  2. S2R: ldmatrix для Q, K, V → 8×8 фрагменты.
  3. Softmax online:
    • m = max(m_prev, m_curr)
    • d = d_prev * exp(m_prev - m) + Σ exp(S - m)
    • O = O_prev * (d_prev/d) * exp(m_prev - m) + (exp(S - m)/d) @ V

v2 — swizzled shared memory

  • 128-битные банки → конфликты при 8×8 tile.
  • Swizzle K и V по 32-битным строкам; Q оставляем линейно.
  • +40 % пропускной способности.

v3 — 2-stage pipeline

  • Двойной буфер: пока вычисляем S/P@V, асинхронно грузим следующий KV.
  • cp.async.commit_group() + cp.async.wait_group(1).
  • +5 % к SOL.

v4 — ldmatrix.x4

  • Одна инструкция ldmatrix.x4 загружает 4×8×8 фрагмента K/V за раз.
  • Снижает инструкций на 25 %.
  • +2 % к SOL.

v5 — улучшенный pipeline

  • 3-4 стадии:
    1. prefetch KV
    2. compute S
    3. compute P@V
    4. write-back O
  • __pipeline_wait_prior(N) + __pipeline_commit().
  • +2 % к SOL.

Что дальше

  • Использовать TMA (cp.async.bulk) и NVFP4/MXFP8 MMA.
  • Поддержка head_dim > 128 (FlashMLA).

by dsr12 • 23 августа 2025 г. в 12:29 • 145 points

ОригиналHN

#cuda#c++#nvidia#flash-attention#machine-learning#gpu-computing#high-performance-computing

Комментарии (32)

  • Пользователи удивлены, что RTX 5090 даёт всего 209 TFLOPS BF16 — менее 10 % от серверного Blackwell B200 (2250 TFLOPS), но при цене ~$30-40 k за B200 соотношение цена/производительность почти сравнялось.
  • Обсуждают, что NVIDIA с 4090 и далее искусственно ограничивает тензорные ядра игровых карт для ML-операций FP8/FP16.
  • У 5090 выше TDP, чем у 4090, и можно ограничить мощность лишь до 70 % (4090 — до 50 %), что мешает апгрейду для ML-станций.
  • Появились вопросы о поддержке Flash Attention на 5090/5080 и о нативной компиляции под Blackwell в PyTorch 2.7.
  • Участники спорят, стоит ли вкладываться в Triton, если нужны фирменные типы NVFP4/MXFP8, которых там пока нет.

U.S. government takes 10% stake in Intel (cnbc.com) 🔥 Горячее 💬 Длинная дискуссия

  • Государство США купило 10 % акций Intel за 8,9 млрд долл. (433,3 млн шт. по 20,47 $ за штуку).
  • Сделка — часть усилий администрации Трампа по усилению контроля над частным сектором.
  • На фоне новости акции Intel подскочили на 6 %.
  • Ранее на этой неделе SoftBank пообещал вложить в компанию ещё 2 млрд долл.

by givemeethekeys • 22 августа 2025 г. в 21:01 • 518 points

ОригиналHN

#intel#chips-act#amd#nvidia#micron#tsmc

Комментарии (591)

  • Правительство США получило 10 % акций Intel без вложения новых денег, переоформив уже выделенные гранты CHIPS Act.
  • У государства не будет места в совете директоров и управленческих прав, но сделка выглядит как политизированная вымогательская «договорённость».
  • Критики называют это национализацией «à la carte»: прибыль — частным инвесторам, убытки — налогоплательщикам.
  • Участники обсуждения сравнивают происходящее с китайской моделью госвлияния на бизнес и предрекают судебные иски акционеров.
  • Вопросы: почему именно Intel, кто следующий (AMD, Nvidia, Micron?) и действительно ли это поможет догнать TSMC.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

  • Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
  • Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
  • Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
    Попробовать: chat.deepseek.com

API

  • deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
  • Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

  • Рост результатов на SWE / Terminal-Bench.
  • Эффективнее многошаговые поисковые задачи.

Модель

  • База V3.1: дообучена на 840 B токенов для длинного контекста.
  • Обновлён токенайзер и шаблон чата.
  • Веса открыты: V3.1-Base, V3.1.

Цены

  • Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

ОригиналHN

#deepseek#llm#api#gguf#huggingface#fp8#nvidia#anthropic#glm

Комментарии (253)

  • Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
  • На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
  • Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
  • Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
  • Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

How to Think About GPUs (jax-ml.github.io) 🔥 Горячее

Что такое GPU
Современная ML-GPU (H100/B200) — это ~100–150 независимых вычислительных блоков (SM), каждый из которых содержит матричное ядро Tensor Core, векторные ALU (CUDA-ядра) и 256 КБ кэш SMEM. Все SM делят общий L2 и HBM3-память. SM разбит на 4 подблока; каждый подблок выполняет 32 SIMD-операции за такт. GPU-ядро менее мощное, чем TPU TensorCore, но их много, поэтому общая гибкость выше.

Память
H100: 80 ГБ HBM3, 3 ТБ/с. B200: 192 ГБ, 8 ТБ/с. L2 кэш 50 МБ (H100) / 128 МБ (B200). SMEM даёт 256 КБ на SM.

GPU vs TPU на уровне чипа
TPU: 1–2 больших MXU, жёсткая синхронизация, векторная часть слабее. GPU: 100+ мелких ядер, независимые SM, но общий L2 ограничивает масштаб. GPU лучше для разнородных задач, TPU — для чистых матмул.

Сеть внутри узла
Узел = 8 GPU + 2 CPU. GPU соединены NVLink/NVSwitch (900 ГБ/с между любыми двумя). CPU-GPU идут через PCIe 5.0 (64 ГБ/с). NVSwitch-кроссбар внутри узла = полносвязная сеть.

Сеть за пределами узла
InfiniBand HDR/NDR (до 400 Гб/с) или Ethernet RoCE. GPUDirect RDMA позволяет GPU читать/писать память соседнего узла без участия CPU.

Коллективные операции
Intra-node: NCCL использует NVLink; all-reduce 8×H100 за ~3 мкс.
Cross-node: кольцо IB + NVLink; latency ~10 мкс, bandwidth лимит IB.

Roofline-модель для LLM

  • Data Parallelism: ограничен IB; эффективен при малых моделях.
  • Tensor Parallelism: ограничен NVLink; лучше внутри узла.
  • Expert/ Pipeline Parallelism: комбинируем; pipeline глубже → меньше bubble, но больше весов на каждом GPU.
  • TLDR: держи параллелизм так, чтобы IB не стал bottleneck; используй NVLink для tensor-parallel, IB для data-parallel.

Итого
GPU — это масса мелких, независимых SM, связанных быстрым NVLink внутри узла и медленным IB между узлами. Для LLM выбирай параллелизм, который минимизирует IB-трафик и максимально использует NVLink.

by alphabetting • 18 августа 2025 г. в 18:18 • 354 points

ОригиналHN

#gpu#tpu#cuda#nvlink#infiniband#roce#nvidia#parallel-computing#machine-learning

Комментарии (107)

  • Критика точности: документация местами неточна, особенно в определении «CUDA-core».
  • Открытость и вендор-лок: ряд участников считают инвестиции в проприетарную экосистему NVIDIA рискованной ставкой.
  • Ошибка в расчётах: Quiz 2 преувеличивает пропускную способность; реальные 3,2 ТБ/с ограничены портами NIC.
  • Похвала и польза: серия всё же хорошо объясняет принципы параллелизма, применимые и к другим устройствам.
  • Сравнение TPU и GPU: TPU проще масштабировать, но закрыт для продажи; GPU NVIDIA гибче, но сложнее в программировании.
  • Дефицит официальных данных: NVIDIA не раскрывает полную архитектуру, поэтому полезные модели приходится собирать из сторонних источников.

Intel Foundry Demonstrates First Arm-Based Chip on 18A Node (hothardware.com)

Intel показала первый чип на базе Arm, изготовленный по техпроцессу 18A
Intel Foundry продемонстрировала работающий прототип процессора на архитектуре Arm, произведённый по самому продвинутому на сегодня узлу 18A. Это первый публичный пример совместной разработки Intel и Arm, демонстрирующий совместимость технологий и готовность Intel к массовому производству заказных чипов сторонних клиентов.

Тестовый образец использует стандартные библиотеки ячеек Arm и показывает стабильную работу на частотах, соответствующих целевым спецификациям. Intel подтвердила, что технология RibbonFET и PowerVia, заложенные в 18A, обеспечивают необходимую плотность транзисторов и энергоэффективность для мобильных и серверных решений.

Партнёры уже получили доступ к PDK и начали проектирование собственных продуктов. Коммерческие партии ожидаются во второй половине 2025 года.

by rbanffy • 18 августа 2025 г. в 12:31 • 98 points

ОригиналHN

#arm#intel#18a#semiconductor#chip-manufacturing#tsmc#samsung#apple#nvidia#x86

Комментарии (71)

  • Intel показала образец ARM-чипа, чтобы доказать сторонним заказчикам работоспособность своего процесса 18A и начать массовое производство.
  • Для выживания фабрикам Intel нужны внешние клиенты, поскольку продажи собственных x86-чипов больше не покрывают стоимость новых узлов.
  • Участники сомневаются, что кто-то рискнет заказать партию у Intel вместо проверенных TSMC/Samsung, и предлагают большие скидки первым клиентам.
  • Аргументируют, что Apple, Nvidia или правительство США могут профинансировать Intel, чтобы разбить монополию TSMC.
  • Некоторые считают, что Intel рано бросает проекты, и не верят в долгосрочную стратегию компании.

SK hynix dethrones Samsung as world’s top DRAM maker (koreajoongangdaily.joins.com)

SK hynix обошла Samsung и впервые с 1992 года стала крупнейшим производителем DRAM.

Причина — бум на HBM для ИИ.

  • SK hynix контролирует ~50 % рынка HBM3/3E, поставляет чипы для NVIDIA.
  • Samsung отстала в HBM, теряет долю в общем DRAM.
  • Объём DRAM: SK hynix — 35 %, Samsung — 34 %.

Выручка SK hynix выросла на 125 % кв/кв, Samsung — на 28 %.

by ksec • 17 августа 2025 г. в 17:31 • 159 points

ОригиналHN

#sk-hynix#samsung#nvidia#drams#hbm#ddr5

Комментарии (67)

  • Пользователи обсуждают, как американцу купить акции SK Hynix: Interactive Brokers предлагает вторичные листинги HY9H (Германия) и HXSCL (США).
  • DRAM-производители: Samsung, SK Hynix и Micron — лидеры; SK Hynix сейчас делает самые быстрые модули DDR5.
  • SK Group — типичный корейский чеболь, крупный, семейный, публичные дочки (SK Hynix торгуется на KRX), но холдинг частично частный.
  • Успех SK связывают с фокусом на «жёсткие» науки, лучшими выпускниками и долгосрочным капиталом.
  • Побочно: 64 ГБ ОЗУ хотят сделать новым минимумом для локального запуска LLM.

Wan – Open-source alternative to VEO 3 (github.com)

Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2

  • Масштабируемость — работает от локального GPU до кластеров.
  • Качество — высокое разрешение, плавность, точность текста.
  • Гибкость — обучение, дообучение, инференс через PyTorch.
  • Форматы — MP4, GIF, WebM; выбор fps и разрешения.
  • API & CLI — простой запуск: wan2.2 generate --prompt "...".
  • Docker — готовый образ wanvideo/wan2.2:latest.
  • Лицензия Apache 2.0, коммерческое использование разрешено.

by modinfo • 17 августа 2025 г. в 05:00 • 190 points

ОригиналHN

#pytorch#docker#apache-2.0#gpu#nvidia#video-generation#lora#moe-architecture#github

Комментарии (31)

  • Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
  • Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
  • Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
  • Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
  • Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.

Show HN: Play Pokémon to unlock your Wayland session (github.com)

wlgblock — экран-блокировка в стиле Game Boy для Wayland.
Проект AdoPi: простой скрипт на Bash, который запускает «игру»-заставку и требует пароль для разблокировки.

  • Зависимости: swaylock, grim, slurp, wl-clipboard, imagemagick, fzf, bash.
  • Установка: клонировать репозиторий, выполнить make install.
  • Использование: wlgblock или горячая клавиша в Sway/i3.

Скрипт делает снимок экрана, накладывает пиксель-фильтр «Game Boy», запускает swaylock с этим изображением и ожидает ввода пароля.

by anajimi • 10 августа 2025 г. в 12:15 • 102 points

ОригиналHN

#bash#wayland#sway#i3#nvidia#amd#kde#github

Комментарии (41)

  • Пользователи радуются, что проект-игра на Wayland показывает, что экосистема уже способна на «тяжёлую» кастомизацию и работает лучше, чем споры последних пяти лет.
  • Многие удивлены, что «игра-скринсейвер» появилась раньше обычного нормального screensaver'а для Wayland.
  • Скептик признал: блокировка экрана в Wayland действительно работает лучше и логичнее, чем в X.
  • Разработчик anajimi уже обещает попробовать сделать полноценный screensaver на ext-session-lock.
  • В KDE 82 % сессий уже Wayland; Sway и labwc активно используются, но NVIDIA всё ещё вызывает проблемы — «переходи на AMD».

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

  • Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:

    1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
    2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
  • Методика

    • Одинаковые образы Docker/Podman на обеих платформах.
    • Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
    • Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
    • Повторять 3×, усреднять, выводить ±σ.
  • Автоматизация

    • Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
    • Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
    • Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
  • Сравнение

    • Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
    • Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

ОригиналHN

#ollama#docker#podman#ansible#prometheus#grafana#llama.cpp#rocm#linux#nvidia

Комментарии (57)

  • AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
  • Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
  • ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
  • Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
  • Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.

How AI conquered the US economy: A visual FAQ (derekthompson.org) 🔥 Горячее 💬 Длинная дискуссия

Американская экономика раскололась: бурный ИИ-сектор и вялая потребительская часть.

  • В статистике: траты на ИИ в прошлом квартале росли быстрее потребительских расходов; без ИИ рост ВВП был бы слабым.
  • В акциях: за два года около 60% прироста рынка дали компании, связанные с ИИ (Microsoft, Nvidia, Meta); без этого бумa доходность была бы посредственной.
  • В бизнес-данных: по Stripe, «ИИ-компании» лидируют по росту выручки, опережая остальные группы.

Что это за бум и откуда деньги? ИИ — это чипы, серверы и дата-центры, огромная электроэнергия, сети и охлаждение. Это крайне дорого. За полгода Meta, Google, Microsoft и Amazon вложили $100–200 млрд в чипы и инфраструктуру. Крупнейшие техгиганты строят на рекордных скоростях — крупнейший инфраструктурный проект со времен ранней компьютерной эры или даже железнодорожного бума.

JP Morgan отмечает: доля Nvidia в совокупных капзатратах компаний может стать максимальной со времен пиковой выручки IBM в 1969. По расчетам Пола Кедроски, капвложения в ИИ как доля ВВП уже превысили дотком-уровни и приближаются к масштабам «позолоченного века» железных дорог.

Этот всплеск финансируется беспрецедентной прибылью лидеров технологий. Их доля свободного денежного потока — рекордная со Второй мировой. Сильные действующие модели (реклама Meta, поисковая реклама Google и пр.) генерируют «горы» наличности, позволяя ежегодно направлять сотни миллиардов на ИИ-НИОКР и инфраструктуру.

by rbanffy • 07 августа 2025 г. в 10:12 • 267 points

ОригиналHN

#llm#economy#microsoft#nvidia#meta#amazon#cloud-computing#investment

Комментарии (213)

  • Участники спорят, действительно ли ИИ «поддерживает» весь рост экономики США или просто концентрирует капитал в руках 10–15 гигантов.
  • Многие сравнивают нынешний бум с «железнодорожной лихорадкой» XIX века и дот-комом 1999–2000 годов: возможен и прорыв, и взрыв пузыря.
  • Поднимается вопрос: если ИИ так продуктивен, почему прибыли растут у «продавцов лопат» (Nvidia, Microsoft), а не у клиентов из S&P 490.
  • Часть комментаторов считает, что без ИИ деньги всё равно бы не пошли в реальную экономику, а осели бы в выкупе акций или «загородных REIT-ах».
  • Скептики предупреждают: рекордные capex на дата-центры могут обернуться масштабным спадом, если спрос на ИИ-сервисы замедлится.

Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs (baseten.co) 💬 Длинная дискуссия

  • В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.

  • Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.

  • Работы включали:

    • Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
    • Совместимость с архитектурами Hopper и Blackwell.
    • Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
    • Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.

Шаг 1: Первый инференс

  • Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
  • Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
  • Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
  • Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.

Шаг 2: Исправление багов совместимости

  • Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
  • Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
  • Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.

Шаг 3: Оптимизация конфигурации

  • Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
  • Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
  • Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.

by philipkiely • 07 августа 2025 г. в 02:28 • 217 points

ОригиналHN

#gpt-oss-120b#nvidia#tensorrt-llm#vllm#sglang#hopper#blackwell#nvidia-dynamo#llama#ollama

Комментарии (151)

  • Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
  • Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
  • TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
  • Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
  • Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
  • Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
  • Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.