Hacker News Digest

Тег: #pytorch

Постов: 25

Leaving Meta and PyTorch (soumith.ch) 🔥 Горячее 💬 Длинная дискуссия

Сумит Чинтала объявляет о своем уходе из Meta после 11 лет работы, где он почти всю профессиональную жизнь руководил разработкой PyTorch. За почти 8 лет он превратил фреймворк из ничего в инструмент с 90%+ долей adoption в области ИИ, теперь поддерживающий эксасейборное обучение и являющийся основой для фундаментальных моделей, переопределяющих интеллект. PyTorch используется практически всеми крупными AI-компаниями и преподается в классах от MIT до сельских районов Индии.

"Я покидаю это с полным сердцем", — пишет Чинтала, объясняя, что хочет попробовать что-то небольшое, новое и некомфортное вне Meta. Он подчеркивает, что PyTorch готов к его уходу: команда во главе с Эдвардом, Суо, Албаном, Грегом, Джоном, Джо и Джаной стала самодостаточной, способна решать сложные технические и организационные проблемы и сохранит ценности проекта. "Эта группа PyTorchers добьется исключительных успехов", — уверен он, добавив, что будет продолжать след за развитием фреймворка, вероятно, даже будет оставлять баги.

by saikatsg • 07 ноября 2025 г. в 06:14 • 663 points

ОригиналHN

#pytorch#machine-learning#artificial-intelligence#meta#open-source#deep-learning

Комментарии (162)

  • Сообщение вызвало обсуждение о причинах ухода Soumith из Meta и о том, что он будет делать дальше; обсуждение затронуло тему открытого исходного кода, влияние PyTorch на исследовательскую среду и то, как компании вроде Meta относятся к своим сотрудникам.

Helion: A high-level DSL for performant and portable ML kernels (pytorch.org)

Helion — это высокоуровневый язык для создания производительных и переносимых ML-ядер, разработанный командой PyTorch в Meta. Он разрешает конфликт между производительностью и удобством, компилируя Python-встроенный DSL в автоматически настраиваемый код Triton. Helion создает новый уровень абстракции, сочетающий простоту PyTorch с производительностью низкоуровневых языков, автоматизируя рутинные задачи вроде индексации тензоров и управления памятью. Это позволяет разработчикам сосредоточиться на алгоритмической логике, а не на аппаратно-специфичных деталях.

Текущие языки вынуждают выбирать между контролем и производительностью: CUDA дает максимум контроля, но требует значительных усилий; Triton — шаг вперед, но все еще требует ручной настройки; PyTorch прост, но ограничен в детальном контроле. Программная модель Helion, описываемая как "PyTorch с тайлами", минимизирует шаблонный код и использует знания разработчиков в PyTorch. Типичное ядро Helion состоит из двух взаимодополняющих частей, что упрощает создание правильных и эффективных ядер.

by jarbus • 02 ноября 2025 г. в 06:21 • 140 points

ОригиналHN

#pytorch#triton#cuda#machine-learning#deep-learning#dsl#nvidia#amazon

Комментарии (47)

  • Helion позиционируется как более высокоуровневая альтернатива Triton, упрощая написание кода за счет автоматического автотюнинга, в отличие от других DSL (Gluon, CuTe), которые предлагают больше контроля на низком уровне.
  • Основные проблемы включают длительный автотюнинг (до 10+ минут), отсутствие полноценной поддержки Python-отладки (автодополнение, точки останова) и сложность выбора между множеством технологий (Triton, Gluon, JAX Pallas и др.).
  • Несмотря на рост высокоуровневых фреймворков, низкоуровневые оптимизации остаются критичными для новых архитектур моделей (например, FlashAttention, MXFP4) и аппаратных платформ (NVIDIA, AMD).
  • Споры о релевантности CUDA: мнения расходятся от его "устаревания" до сохранения доминирующей роли в экосистеме на годы вперед из-за зрелости инструментов и сообщества.
  • Пользователи отмечают, что Helion может расширить круг разработчиков, способных писать эффективные ядра, но сомневаются в его преимуществах перед Triton/Gluon без явного выигрыша в производительности или простоте.

A bug that taught me more about PyTorch than years of using it (elanapearl.github.io) 🔥 Горячее

Плато обучения в модели PyTorch оказалось не ошибкой гиперпараметров, а багом в бэкенде фреймворка. Автор провёл детективное расследование, которое научило его больше о PyTorch, чем годы использования. Проблема заключалась в ядре MPS для Apple Silicon, где операции addcmul_ и addcdiv_ при работе с ненепрерывными тензорами молча записывали результаты во временный буфер вместо самого тензора.

Из-за инициализации весов энкодера как транспонированных декодера они получали ненепрерывную память, которая наследовалась состояниями оптимизатора Adam. Это приводило к тому, что exp_avg_sq.addcmul_() не обновлялся, оставаясь нулевым, что полностью останавливало обновление параметров. Исправить проблему можно, сделав веса непрерывными при инициализации, обновив PyTorch до версии ≥2.4 или перейдя на macOS 15+.

by bblcla • 23 октября 2025 г. в 17:06 • 425 points

ОригиналHN

#pytorch#machine-learning#apple-mps#tensors#optimizers#adam-optimizer#apple-silicon#macos#mlx

Комментарии (78)

  • Найдена ошибка в градиентах для Apple MPS в PyTorch, вызванная неправильной обработкой не-непрерывных тензоров.
  • Сообщество обсуждает, что подобные ошибки встречаются и в других библиотеках и бэкендах, и что их трудно отследить.
  • Участники обсуждают, что Apple не поддерживает PyTorch и вместо этого развивает собственный фреймворк MLX, что ведет к фрагментации экосистемы.
  • Обсуждается, что отсутствие должной поддержки PyTorch на macOS приводит к тому, что исследователи сталкиваются с такими ошибками, которые могут быть неочевидны и влиять на результаты экспериментов.

PyTorch Monarch (pytorch.org) 🔥 Горячее

Команда PyTorch представила Monarch - новую распределенную программную среду, призванную упростить сложные ML-рабочие процессы. Современные рабочие процессы стали гетерогенными, асинхронными и должны учитывать отказы оборудования, что затрудняет их реализацию в традиционной HPC-модели с несколькими контроллерами. Monarch предлагает подход с единственным контроллером, где один скрипт управляет всеми распределенными ресурсами, делая их почти локальными.

Monarch позволяет программировать распределенные системы так, как будто это единая машина, скрывая сложность распределенных вычислений. Ключевые особенности включают программирование кластеров как массивов с помощью простых API, прогрессивную обработку сбоев по аналогии с исключениями в Python, разделение управляющего и информационного потоков для оптимизации, а также интеграцию с PyTorch для работы с распределенными тензорами, которые ощущаются как локальные.

by jarbus • 23 октября 2025 г. в 10:15 • 358 points

ОригиналHN

#pytorch

Комментарии (42)

  • Monarch предоставляет инфраструктуру для распределённых вычислений, в то время как Tinker — это сервис для fine-tuning, построенный поверх неё.
  • Monarch использует Rust в бэкенде и Python во фронтенде, что позволяет ему быть высокопроизводительным и масштабируемым.
  • Monarch не поддерживает тензорные движки, что ограничивает его применимость для ML.
  • Monarch не является заменой для PyTorch, а скорее дополнительным инструментом для распределённого обучения.
  • Monarch не поддерживает тензорные движки, что ограничивает его применимость для ML.

Getting DeepSeek-OCR working on an Nvidia Spark via brute force with Claude Code (simonwillison.net)

by simonw • 20 октября 2025 г. в 17:24 • 184 points

ОригиналHN

#pytorch#cuda#nvidia#python#deepseek-ocr

Комментарии (41)

  • Обсуждение в основном вращается вокруг проблемы установки и совместимости PyTorch/CUDA, причем участники отмечают, что «просто поставить pip install torch» редко работает из-за несовпадающих бинарников и отсутствия удобного менеджера зависимостей.
  • Несколько участников подчеркивают, что NVIDIA, будучи вендором и железа и драйверов, предоставляет довольно устаревшие сборки PyTorch, что вызывает трудности даже при попытке запустить тестовый «hello world» на свежей ОС.
  • Участники также обсуждают, что вместо того, чтобы тратить время на «собирание» PyTorch, можно было бы просто взять готовый wheel-файл, который бы с большей вероятностью был бы совместим с готовой CUDA-версией.
  • Некоторые комментаторы также упоминают, что вместо того, чтобы тратить время на «сборку» PyTorch, можно было бы просто взять готовый wheel-файл, который бы с большей вероятностью был бы совместим с готовой CUDA-версией.

Nvidia DGX Spark: great hardware, early days for the ecosystem (simonwillison.net)

NVIDIA представила DGX Spark - настольный "суперкомпьютер" для ИИ размером с Mac mini, стоимостью около $4,000. Внутри скрывается ARM64-система с 20-ядерным процессором, 128 ГБ ОЗУ и 3.7 ТБ SSD, а также мощный GPU NVIDIA GB10 на архитектуре Blackwell с 119.68 ГБ памяти. Устройство нацелено на исследователей ИИ, предназначено как для обучения, так и для запуска моделей.

Основная проблема - совместимость CUDA с ARM64. Большинство библиотек и туториалов предполагают x86-архитектуру, что создает множество сложностей при настройке. Автору удалось найти PyTorch 2.7 для CUDA на ARM, но не для версии 2.8. NVIDIA пытается упростить задачу через официальные Docker-контейнеры, а за последний недобю опубликовала обширную документацию, которой не хватало изначально.

by GavinAnderegg • 15 октября 2025 г. в 00:49 • 146 points

ОригиналHN

#nvidia#dgx-spark#cuda#arm64#pytorch#docker#gpu#llm#machine-learning#blackwell

Комментарии (85)

  • Обсуждение в основном вращается вокруг сравнения DGX Spark с другими решениями: пользователи отмечают, что при цене в $70 000 он уступает RTX 5090 в производительности и даже RTX 4090, а единственное преимущество — 128 ГБ видеопамяти — ограничено пропускной способностью, что делает его неэффективным для инференса больших моделей.
  • Участники также поднимают вопросы о цене, отсутствии DisplayPort и возможности подключения к обычному монитору, а также о том, что DGX Spark не может использоваться для обучения из-за ограниченной памяти и отсутствия NVLink.
  • Некоторые комментаторы сравнивают его с MacBook Pro на Apple Silicon, отмечая, что ноутбук дешевле и при этом предлагающий 128 ГБ единой памяти может быть более практичен для инференса.
  • Также обсуждается, что NVIDIA в целом не предоставляет нужного ПО для ARM64, что делает его менее привлекательным, и что в целом экосистема CUDA вокруг ARM64 остается сырой.

Pyrefly: Python type checker and language server in Rust (pyrefly.org)

Meta представила Pyrefly — новый статический анализатор для Python, способный проверять до 1,85 млн строк кода в секунду. Он работает в 10 раз быстрее, чем основные конкуренты, такие как Pyright и MyPy, при этом сохраняя высокую точность.

Pyrefly интегрируется как сервер языка (LSP) для VS Code и других редакторов, предлагая автодополнение, подсветку ошибок и навигацию по коду. Инструмент уже протестирован на крупных проектах, включая код PyTorch.

Разработчики подчеркивают, что Pyrefly не требует аннотаций для старта, но улучшает качество кода при их использовании. Инструмент доступен как open-source и поддерживается через Discord-сообщество.

by brianzelip • 14 октября 2025 г. в 12:33 • 177 points

ОригиналHN

#python#rust#static-analysis#lsp#vscode#pytorch

Комментарии (124)

rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rr rrrr

A beginner's guide to deploying LLMs with AMD on Windows using PyTorch (gpuopen.com)

AMD и GPUOpen опубликовали практическое руководство, как запустить LLM на Windows с GPU AMD и PyTorch. Самое важное — это не требует ROCm, а использует DirectML, что делает процесс доступным для большинства геймерских видеокарт Radeon. Поддерживаются модели Llama 3.2, Mistral и Gemma, а также Q4 и FP16 квантизация. Подготовка включает установку ROCm и PyTorch, но ROCm не используется; вместо этого используется DirectML. Процесс включает скачивание модели, конвертацию в GGUF с помощью llama.cpp, и запуск через веб-интерфейс Gradio. Важно, что весь процесс происходит на Windows без виртуализации или WSL2.

by beckford • 06 октября 2025 г. в 13:15 • 92 points

ОригиналHN

#pytorch#amd#directml#llama#mistral#gemma#llm#quantization#gradio#windows

Комментарии (26)

I have a philosophy for which I have mixed feelings because I like it in principle despite it making me worse off in some other ways: Devs should punish companies that clearly don't give a shit about them. When I see AMD, I think of a firm that heavily prioritized their B2B busin

The G in GPU is for Graphics damnit (ut21.github.io)

Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.

Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.

by sebg • 02 октября 2025 г. в 11:46 • 186 points

ОригиналHN

#gpu#pytorch#triton#llm#machine-learning#parallel-computing#nvidia#h100#apu#rendering

Комментарии (75)

  • Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
  • Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
  • Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
  • Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
  • Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.

Correctness and composability bugs in the Julia ecosystem (2022) (yuri.is)

После многолетнего активного использования Julia для анализа данных и разработки пакетов автор перестал рекомендовать язык из-за серьёзных проблем с корректностью и композируемостью. В экосистеме Julia наблюдается высокая частота критических ошибок, которые проявляются даже в базовых операциях: например, функции sum! и prod! иногда молча возвращают неверные результаты, а выборка из распределений может давать смещённые или некорректные значения.

Особенно уязвимы комбинации пакетов или нестандартные типы данных — Euclidean Distance не работает с векторами Unitful, а макрос @distributed ломается при использовании OffsetArrays. Многие ошибки приводят к выходу за границы памяти или тихим неверным вычислениям, что ставит под сомнение надёжность любых сложных расчётов. Практический вывод: в проектах, где важна точность, Julia может представлять неприемлемый риск.

by cs702 • 30 сентября 2025 г. в 15:46 • 89 points

ОригиналHN

#julia#python#rust#go#pytorch#jax#tensorflow#tidyverse#r

Комментарии (36)

  • Участники обсуждают проблемы с корректностью и стабильностью экосистемы Julia, включая критические баги в базовых пакетах и проблемы совместимости.
  • Высказываются опасения, что эти проблемы делают язык неподходящим для проектов, где важна точность, несмотря на его элегантность и производительность.
  • В качестве альтернатив для научных вычислений упоминаются Python с библиотеками (PyTorch, Jax, TensorFlow), R (и tidyverse), а также Rust и Go.
  • Некоторые пользователи делятся негативным опытом из-за невыполненных обещаний (например, быстрая компиляция) и переходят на другие языки.
  • Обсуждается актуальность критики, поскольку некоторые примеры проблем датируются 2024 годом, несмотря на то, что исходный пост мог быть написан ранее.

SimpleFold: Folding proteins is simpler than you think (github.com) 🔥 Горячее

Apple выпустила open-source библиотеку ML-SimpleFold для предсказания трёхмерной структуры белков на основе их аминокислотной последовательности. Она использует архитектуру трансформеров и оптимизирована для эффективного обучения и инференса на GPU. Код написан на PyTorch и включает инструменты для подготовки данных, обучения моделей и визуализации результатов.

Библиотека поддерживает предсказание структур как отдельных белков, так и комплексов, с акцентом на скорость и воспроизводимость. Это демонстрирует растущий интерес крупных tech-компаний к computational biology. Практический вывод: инструмент упрощает исследования в биоинформатике, снижая барьер входа для научных групп без мощных вычислительных ресурсов.

by kevlened • 26 сентября 2025 г. в 18:01 • 450 points

ОригиналHN

#pytorch#transformers#gpu#machine-learning#protein-folding#bioinformatics#apple#knowledge-distillation#alphafold#esmfold

Комментарии (126)

  • Представлена упрощенная модель предсказания структуры белков SimpleFold, использующая подход knowledge distillation от сложных моделей (AlphaFold, ESMFold) и демонстрирующая высокую эффективность.
  • Обсуждается, что модель обучалась на данных, сгенерированных другими ИИ-системами, а не на экспериментальных структурах, что поднимает вопросы о её истинной новизне и независимости.
  • Подчеркивается тренд на упрощение архитектур моделей для предсказания folding, следуя "bitter lesson" в ML, и потенциальные выгоды для локального inference на потребительском железе.
  • Участники спорят, является ли проблема folding решенной после AlphaFold, и в чем разница между физическими симуляциями (Folding@Home) и статистическими методами (ИИ).
  • Высказываются предположения о мотивации Apple заниматься этой темой: от престижа и маркетинга до практических целей вроде оптимизации чипов и развития локальных вычислений.

Python on the Edge: Fast, sandboxed, and powered by WebAssembly (wasmer.io) 🔥 Горячее

Команда Wasmer анонсировала бета-поддержку Python в своей edge-платформе на базе WebAssembly. Это позволяет запускать популярные фреймворки вроде FastAPI, Django и Streamlit, а также библиотеки типа numpy и pandas — всё в песочнице с почти нативной производительностью. Ключевые улучшения включают динамическую линковку, поддержку сокетов, потоков и собственный индекс пакетов.

Производительность впечатляет: тесты показывают, что Python на Wasmer работает всего на 5% медленнее нативного, при этом обеспечивая изоляцию и портативность. Платформа уже обгоняет Cloudflare по поддержке мультитрединга и нативных модулей, а вскоре добавит полную поддержку PyTorch и других тяжёлых библиотек.

by baalimago • 24 сентября 2025 г. в 15:48 • 374 points

ОригиналHN

#python#webassembly#wasmer#fastapi#django#streamlit#numpy#pandas#pytorch

Комментарии (140)

  • Запуск Python в WebAssembly через Wasmer предлагает производительность, близкую к нативной, и обеспечивает надежную песочницу для выполнения кода.
  • Обсуждаются практические применения: встраивание скриптов в приложения, серверные API (FastAPI, Django) и выполнение пользовательского кода в изоляции.
  • Поднимаются вопросы о поддержке ключевых библиотек (numpy), асинхронности (asyncio) и межъязыкового взаимодействия (Python-JS).
  • Отмечаются существующие альтернативы (Pyodide, контейнеры) и сложности с зависимостями, имеющими нативные расширения.
  • WASM рассматривается как более простая и легковесная альтернатива виртуальным машинам и контейнерам для развертывания.

Apple Silicon GPU Support in Mojo (forum.modular.com)

Mojo теперь поддерживает программирование GPU на Apple Silicon, что делает разработку GPU-ускоренных алгоритмов и AI-моделей доступнее для владельцев современных Mac. Для работы требуется macOS 15, Xcode 16 и чипы M1–M4. Пока функциональность ограничена: не работают сложные примеры вроде матричного умножения, AI-модели, PyTorch-интеграция и некоторые аппаратные возможности. Планируется доработка поддержки atomic operations, bfloat16 и других функций.

Технически код компилируется в AIR bitcode через LLVM IR, затем в .metallib через Metal-cpp API, скрыто от разработчика. Существующий код для NVIDIA/AMD GPU должен работать, но для максимальной производительности потребуются оптимизации под архитектуру Apple. Документация и открытый вклад ожидаются позже, когда базовая инфраструктура будет стабилизирована.

by mpweiher • 21 сентября 2025 г. в 20:35 • 113 points

ОригиналHN

#mojo#apple-silicon#gpu-programming#metal#llvm#pytorch#python#deep-learning#apple

Комментарии (40)

  • Обсуждение касается языка Mojo и его потенциала в области глубокого обучения и GPU-программирования, с акцентом на его совместимость с экосистемой Python и производительность.
  • Участники спорят о нишевости написания кастомных CUDA/Triton ядер, отмечая, что это сложно и этим занимаются немногие, но Mojo может сделать этот процесс более доступным.
  • Высказываются как скептические мнения о будущем Mojo (называя его "проектом тщеславия"), так и оптимистичные, видящие в нём важный прорыв и альтернативу существующим инструментам.
  • Поднимаются вопросы о бизнес-модели Mojo (лицензирование) и её потенциальном влиянии на открытость экосистемы, что может отпугнуть часть разработчиков.
  • Отмечается, что синтаксис Mojo, основанный на Python, является его сильной стороной для привлечения аудитории data scientists, но сама языковая модель и runtime отличаются.

SpikingBrain 7B – More efficient than classic LLMs (github.com)

SpikingBrain-7B — 7-миллиардный языковой модуль, работающий на сетях с импульсными нейронами.

  • Архитектура: LLaMA-2, обучен методом «Spike-LLM» (преобразование весов + тонкая настройка).
  • Преимущества: 10× меньше энергии vs GPU, 4-битные веса, 80 ГБ → 8 ГБ ОЗУ.
  • Метрики: C-Eval 54 %, MMLU 48 %, 1.3× быстрее аналогов на CPU.
  • Код и веса: открыты, PyTorch, 1 строка для запуска.

by somethingsome • 14 сентября 2025 г. в 05:49 • 143 points

ОригиналHN

#spiking-neural-networks#llama-2#pytorch#4-bit-quantization#deep-learning#neuromorphic-computing#machine-learning#natural-language-processing#github#llm

Комментарии (40)

  • Критики счатют, что «spайкинг» сведён к 1-битной квантизации и разрежённым матрицам, а «био-вдохновение» — маркетинг.
  • На GPU всё равно выполняется один статический forward, без асинхронных событий; настоящих SNN-чипов нет.
  • Модель уступает свежим Qwen 2.5 и Llama 3.1, при этом сравнения ведутся с 9–13-месячными baseline.
  • Авторы используют китайские MetaX GPU вместо NVIDIA, что вызвало больше удивления, чем сама архитектура.
  • Сообщество скептически настроено: 30 лет «нейроморфных» обещаний пока не дали практического прорыва.

Defeating Nondeterminism in LLM Inference (thinkingmachines.ai) 🔥 Горячее

Почему LLM неповторяемы и как это исправить

Проблема
Даже при temperature=0 и одном железе выводы моделей различаются от запуска к запуску. Популярное объяснение: «параллельные GPU-ядра + погрешности float = недетерминизм». Это не вся правда.

Что на самом деле происходит

  1. Все «математические» ядра (matmul, softmax и т.д.) внутри одного forward-прохода детерминированы — бит-в-бит.
  2. Недетерминизм появляется между forward-проходами:
    • динамическое разбиение работы на потоки (different thread blocks);
    • неупорядоченные редукции при вычислении softmax/layernorm;
    • разные стратегии cudnn/cublas в зависимости от загрузки GPU;
    • кэш-промахи и atomicAdd в attention.

Как убедиться

A = torch.randn(2048, 2048, device='cuda', dtype=torch.bfloat16)
B = torch.randn(2048, 2048, device='cuda', dtype=torch.bfloat16)
ref = A @ B
for _ in range(1000):
    assert (A @ B == ref).all()   # всегда True

Матричное умножение повторяется, а вот softmax(A @ B) — уже нет.

Побеждаем за 3 шага

  1. Фиксируем редукции

    • torch.use_deterministic_algorithms(True)
    • CUBLAS_WORKSPACE_CONFIG=:4096:8 (для CUDA ≥10.2)
    • export CUDA_LAUNCH_BLOCKING=1 (медленно, но зато стабильно).
  2. Отключаем динамические алгоритмы

    • torch.backends.cudnn.deterministic = True
    • torch.backends.cudnn.benchmark = False
    • в vLLM: --disable-custom-all-reduce, --enforce-eager.
  3. Контролируем параллелизм

    • фиксированный батч и длина последовательности;
    • один GPU-поток (tensor_parallel_size=1);
    • один и тот же порядок запросов (queuing seed).

Результат
На Llama-3-8B с vLLM + указанными флагами 1000 прогонов дают идентичные токены вплоть до последнего бита. Стоимость: ≈8 % к throughput.

TL;DR
Недетерминизм — не «float плавает», а race-conditions вне математического ядра. Убери их, и LLM станет строго воспроизводимым.

by jxmorris12 • 10 сентября 2025 г. в 17:26 • 280 points

ОригиналHN

#cuda#pytorch#gpu#deterministic-algorithms#llm#machine-learning#nondeterminism#inference#cublas#cudnn

Комментарии (117)

  • Корень проблемы: «один и тот же» запуск LLM выдаёт разные токены из-за race-конкуренции ядер, неассоциативности float и недетерминированных GPU-ядёр; авторы показали, как зафиксировать порядок операций и получить бит-в-бит повтор.
  • Практика: temperature=0 ≠ гарантия: во-первых, библиотеки всё равно подкладывают ε>0, во-вторых, MoE-модели выбирают экспертов в зависимости от состава батча, поэтому даже «одинаковый» запуск в API почти никогда не повторяется.
  • Зачем нужна детерминированность: CI-тесты, отладка багов, шеринг промптов между разработчиками, валидация через LLM, агентские цепочки и RL-обучение требуют, чтобы «один и тот же вход = один и тот же выход».
  • Ограничения: статья решает только замкнутую задачу inference-ядер; контекст, семантически эквивалентные формулировки и много-нодовые коллективы остаются источником разброса; при temperature>0 нужен фиксированный PRNG-сид.

ML needs a new programming language – Interview with Chris Lattner (signalsandthreads.com) 🔥 Горячее 💬 Длинная дискуссия

  • Крис Латтнер (LLVM, Swift) делает новый язык Mojo, чтобы ML-код был быстрым и удобным.
  • Проблема: GPU-ядра пишутся на CUDA/OpenCL вручную, медленно и зависят от одного вендора.
  • Решение: язык с метапрограммированием и типами, который «знает» об аппаратуре и генерирует оптимальный код под любую платформу.
  • Цель: один код → любой GPU/CPU, открытая экосистема, no lock-in.

by melodyogonna • 05 сентября 2025 г. в 11:33 • 291 points

ОригиналHN

#mojo#python#cuda#opencl#gpu#metaprogramming#machine-learning#llvm#swift#pytorch

Комментарии (255)

  • Mojo обещает «Python++, но быстрый», но до сих пор нет полноценных классов, а «полный суперсет» превратился в мягкое «всё ещё не Python».
  • Лицензия проприетарная — для многих это стоп-фактор: «сделайте GPL или идите лесом».
  • Экосистема Python неподвластна: все уже завязаны на PyTorch/CUDA, а Mojo пока не даёт причин мигрировать.
  • Julia, Elixir/Nx, CuPy, Triton, Numba — всё уже умеют «быстро + GPU», без нового языка.
  • Итог: Mojo выглядит технически интересным, но «ещё один закрытый язык» в 2025 году воспринимается как ненужный риск.

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels (gimletlabs.ai)

  • Итог: генератор Metal-ядер на базе LLM ускорил PyTorch-инференс на Apple-устройствах в среднем на 87 % (до 100× на отдельных модулях), не требуя ручной оптимизации.

Зачем AI-генерация ядер?

  • GPU-ядро = узкое место производительности.
  • Metal-ядра для Apple пишут редко и сложно; CUDA-оптимизации не переносятся.
  • Идея: frontier-модель сама пишет быстрый код под любую платформу.

Методика

  • Железо: Mac Studio (M4 Max).
  • Модели: Claude-4/Opus-4, GPT-4o/4.1/5, o3, DeepSeek-v3/R1.
  • Датасет: 215 модулей KernelBench (250 − 31 неподдерживаемых − 4 технических).
  • Базовая линия: PyTorch eager (torch.compile для Metal ещё не готов).
  • Цикл: до 5 попыток генерации → компиляция → проверка корректности → профилировка.

Простой агент

  1. Получает PyTorch-код.
  2. Генерирует Metal-ядро.
  3. Проверяет бит-точность и компиляцию.
  4. При ошибке возвращает лог модели на доработку.

Ключевые находки

  • 87 % средний выигрыш (геом. среднее 1.87×).
  • Десятки случаев 10–100×: агент вырезал лишние вычисления, которых не заметил PyTorch.
  • Профилировка и CUDA-референс резко повышают качество кода.
  • Агент-роутер + специализированные «рабочие» модели эффективнее одиночного большого LLM.

Дальнейшие шаги

  • Автоматизировать подбор tile-size и pipeline-оптимизации.
  • Расширить на другие backend’и (Vulkan, WebGPU, DirectX).

by nserrino • 03 сентября 2025 г. в 17:03 • 170 points

ОригиналHN

#pytorch#llm#apple

Комментарии (26)

  • Сравнивают «сырой» PyTorch-инференс (для прототипов) с моделью на кастомных Metal-ядрах, сгенерированными ИИ; заявленный 18×-ускорение вызывает сомнения.
  • Разработчики PyTorch просят полный zip архив ядер и скриптов бенчмарка, иначе результат невозможно проверить.
  • «Kernel» здесь — это GPU-функция (compute kernel), а не Linux-модуль; речь о параллельных вычислениях на ускорителе.
  • Эксперимент показывает, что GPT-5 умеет писать Metal-ядра для ~250 модулей из KernelBench, но часть ядер содержит ошибки корректности.
  • Сторонники считают, что такой подход ускорит переход от прототипа к продакшену без ручной оптимизации; скептики предлагают ждать открытого кода и сравнивать с tinygrad/JAX/Mojo.

The maths you need to start understanding LLMs (gilesthomas.com) 🔥 Горячее

  • Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
  • Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
  • Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
  • Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
  • Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
  • Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
  • MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
  • LayerNorm: стабилизирует распределение после каждого подслоя.
  • Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
  • Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.

Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.

by gpjt • 02 сентября 2025 г. в 23:10 • 526 points

ОригиналHN

#machine-learning#deep-learning#transformers#tensors#linear-algebra#pytorch#backpropagation#attention-mechanism#natural-language-processing#llm

Комментарии (106)

  • Физики и математики вспомнили, что знание тензорного исчисления, линалгебры и энтропии пригодилось для понимания backprop и LLM.
  • Практика: «смотреть» Karpathy недостаточно — нужно кодить за ним; его курс даёт базы и уверенность копать дальше.
  • Книга «Build a Large Language Model (from Scratch)» идёт шаг-за-шагом, но объясняет только вычисления, а не «почему это вообще работает»; explainability всё ещё исследуется.
  • Путаница: эмбеддинги ≠ вся модель; они лишь вход для трансформера, внутри которого 1,8 трлн параметров и «чёрный ящик».
  • LLM — логит-генераторы с неизбежной неопределённостью; цепочки моделей накапливают ошибку и быстро «ломаются» без человека-оркестратора.
  • Для 99 % разработчиков хватает линалгебры, softmax, градиентов и PyTorch; остальное — инженерия данных, трюки и эксперименты.

SpaCy: Industrial-Strength Natural Language Processing (NLP) in Python (github.com)

spaCy — промышленная библиотека NLP на Python.
Быстрая, точная, поддерживает 70+ языков.

Основное

  • Установка
    pip install -U spacy
    python -m spacy download en_core_web_sm
    
  • Быстрый старт
    import spacy
    nlp = spacy.load("en_core_web_sm")
    doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
    for ent in doc.ents:
        print(ent.text, ent.label_)
    

Возможности

  • токенизация, POS-теги, синтаксис, NER
  • готовые модели CNN/Transformer
  • обучение и дообучение
  • интеграция с PyTorch, Transformers, FastAPI
  • GPU/Apple Metal

Примеры

  • NER: выделение имён, дат, денег
  • Matcher: поиск паттернов
  • Projects: end-to-end пайплайны
  • spaCy LLM: LLM-интеграция без кода

Ресурсы

by marklit • 23 августа 2025 г. в 09:07 • 104 points

ОригиналHN

#spacy#python#nlp#pytorch#transformers#fastapi#ner#llm#machine-learning#natural-language-processing

Комментарии (40)

  • В эпоху LLM традиционный NLP (SpaCy) всё ещё нужен: дешевле, быстрее, работает на обычном железе и не требует постоянной оплаты провайдеру.
  • Участники хвалят SpaCy за отличный API, скорость, надёжность NER и удобство пайплайнов; активно используют в enterprise, RAG-метриках и даже на Raspberry Pi.
  • Некоторые задачи (классификация, сентимент) LLM решают хуже и дороже, поэтому возвращаются к дискриминативным моделям.
  • Сообщество отмечает, что проект немного сократился (v4 задерживается), но библиотека по-прежнему поддерживается и считается недооценённой.

The AI Job Title Decoder Ring (dbreunig.com)

Ключевые слова титулов
AI-роли собираются из трёх блоков:

модификатор домен роль
Forward Deployed / Applied / — AI / ML / Gen AI Researcher / Engineer / Scientist / Architect / PM / Designer
  • Forward Deployed — работают у клиента, внедряют готовые модели.
  • Applied — строят продукты на базе моделей, но не обучают их.
  • AI — общий термин.
  • ML — классическое обучение моделей для узких задач.
  • Gen AI — генерация текста, картинок, звука; термин быстро устаревает.

Researcher и Scientist почти синонимы, но «исследователь» всё чаще означает «продуктовый инженер с OKR», а не академика.


Реальные примеры

  • AI Researcher — исследует архитектуру LLM.
  • Applied AI Engineer — интегрирует модели в продукт.
  • Forward Deployed AI Architect — проектирует решения на месте у заказчика.

by dbreunig • 21 августа 2025 г. в 19:22 • 76 points

ОригиналHN

#llm#machine-learning#gen-ai#pytorch#hugging-face

Комментарии (66)

  • «AI» стал маркетинговым зонтиком для всего, от LLM до обычного ML, а титулы вроде «AI Engineer» или «Forward Deployed Engineer» часто не отражают реальные задачи.
  • Участники смеются над инфляцией названий («Exalted Engineer», «Senior Anything-But-C-Level») и предлагают практичные эвристики: MLE = PyTorch, AI Engineer = Hugging Face, Researcher = пишет статьи.
  • Многие «AI-роли» на деле сводятся к обычной разработке без GPU и fine-tuning’а, а само слово «engineer» уже обесценено.
  • Популярность профессии взлетела после 2022 г. из-за денег, вызвав приток «хайпожоров» и «лестничных альпинистов», от которых «нормальные» инженеры мечтают избавиться.
  • Итог: вакансии описывают задачи лучше, чем громкие титулы, а понимание «AI» всё чаще заменяется лозунгом «дайте инвестиции».

Gemma 3 270M re-implemented in pure PyTorch for local tinkering (github.com) 🔥 Горячее

  • Назначение: ноутбук 12_gemma3.ipynb показывает, как загрузить и запустить модель Gemma-3 (1B/4B/12B/27B) с помощью Hugging Face Transformers и KerasNLP без обучения.
  • Установка: pip install transformers keras-nlp (Keras 3 + JAX/TF/PyTorch).
  • Код:
    • Авторизация через huggingface-cli login и keras_nlp.models.GemmaCausalLM.from_preset("gemma3_1b_en").
    • Генерация текста: model.generate("AI is", max_length=50).
  • Особенности Gemma-3: поддержка 140 языков, контекст до 128k токенов, инструмент-вызовы, улучшенные математика и код.
  • Внимание: модели весят 1–27 ГБ; требуется GPU/CPU с 8–48 ГБ ОЗУ.

by ModelForge • 20 августа 2025 г. в 14:01 • 399 points

ОригиналHN

#pytorch#huggingface#transformers#keras#gemma-3#jax#tensorflow#machine-learning#deep-learning#natural-language-processing

Комментарии (55)

  • Автор модели canyon289 представил Gemma 270M, ответил на вопросы и поделился туториалами.
  • Пользователи спрашивали: как перейти от классического ML к DL, где взять гайд по тонкой настройке для NER, какие бывают применения мелких моделей и нужен ли для них дополнительный трейнинг.
  • Обсуждали скорость работы на Mac CPU vs A100 GPU, качество эмбеддингов и возможность до-обучения.
  • canyon289 подтвердил, что модель полезна не только для учёбы, но и для продакшена: локальная классификация, суммаризация, тегирование, быстрый дев-цикл.

Wan – Open-source alternative to VEO 3 (github.com)

Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2

  • Масштабируемость — работает от локального GPU до кластеров.
  • Качество — высокое разрешение, плавность, точность текста.
  • Гибкость — обучение, дообучение, инференс через PyTorch.
  • Форматы — MP4, GIF, WebM; выбор fps и разрешения.
  • API & CLI — простой запуск: wan2.2 generate --prompt "...".
  • Docker — готовый образ wanvideo/wan2.2:latest.
  • Лицензия Apache 2.0, коммерческое использование разрешено.

by modinfo • 17 августа 2025 г. в 05:00 • 190 points

ОригиналHN

#pytorch#docker#apache-2.0#gpu#nvidia#video-generation#lora#moe-architecture#github

Комментарии (31)

  • Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
  • Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
  • Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
  • Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
  • Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

  • Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
  • Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
  • Zero-shot классификация и сегментация без дообучения.
  • Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

ОригиналHN

#pytorch#vit#facebook-research#imagenet#self-supervised-learning#computer-vision#machine-learning#deep-learning#github

Комментарии (28)

  • Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
  • Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
  • Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
  • Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
  • Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.

Gemma 3 270M: Compact model for hyper-efficient AI (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.

  • Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
  • Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
  • Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
  • Лицензия: Gemma Terms of Use, коммерческое применение разрешено.

Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.

by meetpateltech • 14 августа 2025 г. в 16:08 • 764 points

ОригиналHN

#google#vertex-ai#keras#jax#pytorch#ollama#transformers#wordpress#llm

Комментарии (291)

  • Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
  • Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
  • Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
  • Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
  • Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.

What's the strongest AI model you can train on a laptop in five minutes? (seangoedecke.com) 🔥 Горячее 💬 Длинная дискуссия

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

  • torch.compile, float16, MLX — без выгоды.
  • Градиентное накопление тормозит.
  • Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.

by ingve • 12 августа 2025 г. в 13:15 • 504 points

ОригиналHN

#llm#transformers#pytorch#mlx#machine-learning#natural-language-processing#tiny-stories#mps#optimization#model-training

Комментарии (181)

  • Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
  • Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
  • Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
  • Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
  • В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.