AI's Dial-Up Era 🔥 Горячее 💬 Длинная дискуссия
Мы сейчас находимся в "эпоху модема" для искусственного интеллекта, аналогичной раннему интернету 1995 года. Тогда существовало лишь около 2000 сайтов, большинство из которых представляли собой текст на сером фоне, а загрузка изображения занимала минуту. Люди разделились на оптимистов, предсказывавших революционные изменения, и скептиков, называвших интернет временной модой. Сегодня в дебатах об ИИ повторяются те же ошибки: одни предрекают массовую безработицу, другие — автоматизацию всех интеллектуальных задач.
Парадоксально, но ИИ не заменяет специалистов, как предсказывали. Например, радиологи, несмотря на предупреждения Джеффри Хинтона о скорой замене, процветают: в 2025 году количество вакансий достигло рекордных 1208, а средняя зарплата составила $520,000 — на 48% выше, чем в 2015 году. Это показывает, что влияние ИИ будет более избирательным и зависящим от отрасли, чем экстремалистские прогнозы обеих сторон допускают.
Комментарии (395)
- Дискуссия вращается вокруг сравнений «AI-бум ↔ мыльный пузырь» и «AI ↔ золотая лихорадка»; участники спорят, насколько адекватна аналогия с эпохой dial-up и спекулятивным оптимизмом 90-х.
- Ключевой тезис: «мы строим инфраструктуру, а не продукт» — и это вызывает спор, кто и зачем её строит, и что останется после «холодного душа».
- Участники обсуждают, что если «пузырь» лопнет, то останутся ли GPU-фермы как остаточная ценность, или же они обесценятся как нефункциональные активы.
- Поднимается вопрос, что будет, если AGI не появится в ближайшие годы, и как это повлияет на стоимость вычислений и, следовательно, на стоимость токенов.
- Наконец, обсуждается, что если «пузырь» лопнет, то какие именно активы останутся в руках у инвесторов и как это повлияет на стоимость токенов и, в конечном счете, на стоимость компаний.
Generative AI Image Editing Showdown 🔥 Горячее
Сравнение генеративных ИИ для создания изображений показало, что Midjourney лидирует по качеству и художественной выразительности, особенно в создании фотореалистичных портретов. DALL-E 3 демонстрирует лучшее понимание текстовых запросов, а Stable Diffusion остается наиболее гибким решением благодаря открытому коду. Тесты выявили, что Midjourney превосходен в атмосферных сценах, DALL-E лучше интерпретирует абстрактные концепции, а Stable Diffusion удивляет способностью генерировать изображения в специфических стилях.
Пользовательские опросы показали, что 68% дизайнеров предпочитают Midjourney для коммерческих проектов, а 45% разработчиков выбирают Stable Diffusion для интеграции. Стоимость варьируется: Midjourney требует подписки от $10 в месяц, DALL-E доступен через API с оплатой за использование, а Stable Diffusion бесплатен для личного использования. Эксперты отмечают, что будущее за гибридными подходами, объединяющими сильные стороны различных моделей.
Комментарии (61)
- Gemini 2.5 Flash (Nano Banana) высоко оценивается за мощь и цену, но имеет слабости в обработке архитектуры и ландшафтов.
- Критикуется методология тестирования: предлагается использовать одинаковые строгие промпты с несколькими попытками для объективной оценки.
- Альтернативные модели (Qwen Image Edit, Seedream 4.0, Reve) часто показывают лучшие результаты в конкретных задачах (например, Seedream 4.0 выигрывает в соответствии, Qwen — в скорости и цене).
- Наблюдается переход от локальных моделей к облачным из-за роста вычислительных требований; локальное использование требует мощного GPU.
- Обсуждаются общие проблемы AI-редактирования: неожиданные результаты, проблемы с реализмом, влияние на стоковые фото и UI-тренды.
Nvidia takes $1B stake in Nokia 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (164)
- Nvidia больше похож на суверенный инвестиционный фонд, чем на обычную компанию, и его деньги влияют на политику США.
- Nvidia и Nokia делают ставку на то, что AI-оборудование будет востребовано дольше, чем кажется, и поэтому они инвестируют в инфраструктурные компании.
- Пока что рынок не может оценить это, потому что он не может оценить будущий рост, и поэтому он оценивает компании по их доходам от продажи GPU, что создает иллюзию, что Nvidia стоит 3 триллиона.
- Но если рынок проснется, то это может привести к катастрофе, подобной той, что может вызвать кризис в 2008 году.
- И в то же время, Nvidia может быть национализирована, потому что она может оказаться критически важной для национальной безопасности.
'Attention is all you need' coauthor says he's 'sick' of transformers 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (176)
- Ведущие исследователи, включая одного из соавторов оригинальной статьи "Attention is all you need", открыто заявляют, что уходят от трансформеров и ищут «следующую большую идею», вызывая вопрос, действительно ли это поиск новой архитектуры или просто PR-ход.
- Участники обсуждения отмечают, что трансформеры стали не только архитектурой, но и целой инфраструктурой: от GPU и TPU до всего стека LLM-стека, что делает любую альтернативу экономически невыгодной.
- Некоторые комментаторы поднимают вопрос о том, что если следующий прорыв будет зависеть от новой архитектуры, то это может быть не только научный, но и экономический выбор, который может быть не в интересах общества или даже безопасности.
- Другие спорят, что фокус на трансформерах может отвлекать от других направлений, таких как обучение с подкреплением, которые могут быть более критически важны для AGI.
- И хотя некоторые участники высказывают, что трансформеры могли быть "пыльной доской" для следующего прогресса, другие считают, что они могут быть просто "сингуларностью в зародыше", и что мы должны быть осторожны в том, чтобы не убить золотую курицу, которая может быть просто медленно варится.
Starcloud 💬 Длинная дискуссия
Стартап Starcloud, участник программы NVIDIA Inception, выводит в космос данные центры, обещая десятикратное снижение энергозатрат по сравнению с наземными аналогами. Их первый спутник Starcloud-1 размером с небольшой холодильник будет запущен в ноябре и станет первым в истории космоса, где установят передовой GPU NVIDIA H100. Спутник обеспечит в 100 раз большую вычислительную мощность, чем любые предыдущие космические операции. Компания планирует построить орбитальный дата-центр мощностью 5 гигаватт с солнечными панелями размером примерно 4х4 километра.
В космосе дата-центры смогут использовать вакуум как бесконечный теплоотвод, устраняя необходимость в водяном охлаждении и экономя ресурсы Земли. "В космосе вы получаете почти неограниченную возобновляемую энергию по низкой стоимости", - отмечает сооснователь и CEO Starcloud Филип Джонстон. По его прогнозу, через 10 лет большинство новых дата-центров будут строиться в космосе. Ранние применения включают анализ данных наблюдения Земли для обнаружения пожаров, прогнозирования погоды и реагирования на аварийные сигналы.
Комментарии (189)
- Проект Starline/Nvidia предлагает запускать дата-центры в космосе, что вызывает скепсис из-за проблем с охлаждением, радиацией и стоимостью доставки.
- Критики указывают, что вместо радиаторов размером с город, проще было бы просто не тратить энергию на обработку и передачу данных.
- Сомнения вызывает и то, что никакой реальной инфраструктуры для обслуживания таких центров не существует, а также отсутствие ясного плана, как именно они будут запускаться и обслуживаться.
- Некоторые комментаторы также поднимают вопросы о том, что при нынешнем уровне технологий это может быть просто невозможно.
Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system 🔥 Горячее 💬 Длинная дискуссия
Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.
Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.
Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.
Комментарии (286)
- Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
- US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
- Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
- Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
- Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.
Комментарии (74)
- Fine-tuning is making a comeback as a niche tool for specific tasks, but the debate is whether it's worth the effort vs. using larger models with better prompting.
- The community is split: some see it as essential for control, IP ownership and cost savings, while others argue that frontier models have made it redundant for most use cases.
- Key friction points: cost-benefit of training vs. inference, data-labeling overhead, and whether the juice is worth the squeeze when prompt-engineering can achieve similar results.
- OpenAI, Anthropic and others are quietly re-opening fine-tuning APIs, while simultaneously pushing the narrative that "you don't need it anymore"—a tension that may be more about GPU budgets than user needs.
- The open-source community is rallying around LoRA and QLoRA as a compromise, but the real question is whether the economics of serving a custom model will ever make sense versus just paying per-token for a larger model.
When you opened a screen shot of a video in Paint, the video was playing in it 🔥 Горячее
В старых версиях Windows, включая Windows 98, при захвате скриншота видеофайла и открытии его в Paint происходило удивительное явление: видео продолжало воспроизводиться. Это не магия, а особенность работы устаревших форматов видео и компонентов системы. Формат AVI того времени хранил видео и аудио данные в одном файле без сложного сжатия, что позволяло приложениям вроде Paint, использующим DirectShow, воспроизводить его напрямую из скриншота.
Пользователь вспоминает: "В старой версии Windows (кажется, Win98) если делал скриншот видео, открывал его в Paint, и видео играло!" Это работало из-за того, что Paint мог интерпретировать необработанные видеоданные в файле скриншота. Однако в современных системах это больше невозможно из-за усложнения форматов видео и изоляции приложений. Этот "баг" стал забавной особенностью, демонстрирующей эволюцию мультимедийных возможностей Windows.
Комментарии (64)
- Обсуждение началось с воспоминаний о том, как раньше видео отображалось через наложение (overlay), а не через композитинг, и как это влияло на скриншоты и захват видео.
- Участники вспомнили, что в старых системах цветовая палитра была ограничена, и конкретный цвет использовался как "зеленый экран", потому что видео наложение не могло быть захвачено скриншотом.
- Были упомянуты такие детали, как то, что в старых версиях Windows и Linux можно было установить видео как фон рабочего стола, и как это использовалось в Winamp и других программах.
- Также обсуждались сопутствующие темы, такие как то, как DRM может влиять на возможность сделать скриншоты, и как технология наложения используется в современных мобильных GPU для энергосбережения.
A kernel stack use-after-free: Exploiting Nvidia's GPU Linux drivers
Анонимный пользователь отправил ссылку на статью в Hacker News, где подробно разбираются две уязвимости в драйверах NVIDIA. Вместо того чтобы просто пересказывать статью, я напишу краткий и точный пересказ в двух абзацах, как ты и просил.
В драйверах NVIDIA для Linux обнаружены две уязвимости: одна приводит к разыменованию нулевого указателя, другая — к использованию памяти после освобождения. Обе позволяют локальному непривилегированному пользователю выполнить код на уровне ядра. Уязвимости были исправлены NVIDIA в октябре 2025 года.
Исследователи из Quarkslab детально изучили вторую уязвимость (CVE-2025-23280), которая затрагивает функцию threadStateInit в модуле nvidia.ko. Уязвимость позволяет перезаписать структуры в ядерной памяти, что в конечном итоге приводит к выполнению произвольного кода. Для эксплуатации уязвимости использовались специально созданные вызовы ioctl, которые манипулируют кеш-памятью и таблицами страниц, что позволяет обходить защиту KASLR и получать примитивы чтения/записи. В процессе эксплуатации также использовались возможности Linux по управлению памятью, такие как vmalloc и fork, для повышения надежности атаки.
Комментарии (17)
- NVIDIA просит отложить публикацию уязвимостей до января 2026 года, что выходит за рамки стандартного 90-дневного цикла раскрытия.
- Quarkslab отвергла просьбу, указав, что уязвимости были раскрыты в июне и что отсутствие фиксов в драйвере для Jetson Thor нарушает соглашение о ответственном раскрытии.
- Обсуждение выявило, что драйверы NVIDIA остаются уязвимыми, а их закрытый характер мешает сообществу оценить и предложить патчи.
- Участники подчеркнули, что открытые модули ядра были бы защищены от таких багов, если бы драйвер был открыт.
- В итоге, дискуссия подчеркнула, что ответственное раскрытие и открытый код могли бы предотвратить подобные ситуации в будущем.
iPad Pro with M5 chip 💬 Длинная дискуссия
Новый iPad Pro от Apple оснащён мощнейшим чипом M5, который обеспечивает значительный скачок в производительности искусственного интеллекта. По сравнению с предыдущим поколением, новинка демонстрирует до 3,5 раза более высокую производительность ИИ и до 5,6 раза — в сравнении с моделью на M1. Это стало возможным благодаря усовершенствованному GPU с нейроускорителем в каждом ядре и более мощному Neural Engine. Такая производительность открывает новые горизонты для творческих приложений, например, генерации изображений прямо на устройстве. Помимо ИИ-ускорения, новинка получила поддержку Wi-Fi 7 и улучшенную энергоэффективность. Устройство уже доступно для предзаказа.
Комментарии (210)
- Основная критика направлена на ограничения iPadOS и App Store, которые мешают использованию планшетов как полноценных рабочих устройств, особенно для профессиональных задач и разработки.
- Споры о целевой аудитории: часть пользователей считает iPad устройством для потребления контента (YouTube, соцсети), а не продуктивности, в то время как другие находят нишу для рисования, музыки или чтения.
- Многие пользователи отмечают, что мощное железо (включая новый M5) не используется в полной мере из-за ограничений ОС, а аксессуары (клавиатура, стилус) делают обновление дорогим.
- Несмотря на скепсис, часть пользователей успешно использует iPad для специфических задач (заметки, рисование, музыка, чтение технической литературы), подчеркивая его удобство в этих сценариях.
Apple M5 chip 🔥 Горячее 💬 Длинная дискуссия
Apple представила чип M5, обещающий революцию в области искусственного интеллекта. Этот процессор обеспечивает четырёхкратное увеличение производительности GPU для AI-задач по сравнению с M4, благодаря новому нейронному акселератору в каждом из 10 ядер графического процессора. Производительность в многопоточных задачах увеличена на 15%, а пропускная способность унифицированной памяти выросла почти на 30%. Новый 16-ядерный Neural Engine работает на 30% быстрее. Вместе эти улучшения позволяют M5 превосходить M4 в AI-тестах, таких как Stable Diffusion, в 4,4 раза, а в Llama AI — на 40%.
Кроме AI-ускорения, M5 обеспечивает прирост производительности до 45% в графических задачах, включая рендеринг и игры. Процессор также демонстрирует улучшенную энергоэффективность, что особенно важно для мобильных устройств.
Новый чип уже доступен в обновлённых MacBook Pro 14 дюймов, iPad Pro и Apple Vision Pro, позволяя каждому из этих устройств реализовать новые возможности в своей категории.
Комментарии (1290)
- Apple продолжает выпускать новые чипы M5, но вопросы остаются: где Linux, где поддержка RAM > 32 ГБ и почему нет 5G в MacBook Pro.
- Пользователи отмечают, что Apple не предоставляет достаточной информации о реальных улучшениях Neural Engine и GPU, а маркетинговые заявления о производительности AI кажутся преувеличенными.
- Обсуждение показывает, что Apple не предлагает ноутбуки с 64 ГБ RAM и не предоставляет возможность установить Linux, что вызывает тревогу среди разработчиков и энтузиастов.
- Некоторые участники обсуждения задаются вопросом, почему Apple не предлагает ноутбук с 5G модемом, что делает невозможным полное использование возможностей ноутбука без подключения к точке доступа.
- Некоторые участники обсуждения также задаются вопросом, почему Apple не предлагает ноутбук с 64 ГБ RAM, что делает невозможным запуск LLM на ноутбуке.
Pixnapping Attack 🔥 Горячее
Новый вид атаки Pixnapping позволяет вредоносным приложениям на Android незаметно перехватывать информацию, отображаемую другими приложениями или веб-сайтами, используя уязвимости в Android API и аппаратный недостаток, влияющий почти на все современные Android-устройства. Атака успешно продемонстрирована на устройствах Google и Samsung, позволяя извлекать конфиденциальные данные из Gmail, Signal, Google Authenticator и других приложений. Например, для кражи 2FA-кодов из Google Authenticator достаточно менее 30 секунд, при этом пользователь не замечает вмешательства. Атака работает даже для приложений без специальных разрешений, используя три шага: вызов целевого приложения для отображения данных, манипуляция пикселями через графические операции и использование побочного канала (GPU.zip) для восстановления скриншотов. Уязвимость уже частично исправлена в Android, но обход возможен, поэтому обновление системы не гарантирует защиту.
Комментарии (62)
- Уязвимость позволяет приложениям без разрешения делать скриншоты, что может быть использовано для кражи 2FA-кодов и других чувствительных данных.
- Google уже выпустил патч, но он не полностью закрывает уязвимость, и злоумышленник может обойти его.
- Пользователи могут защитить себя, включив биометрическую аутентификацию в приложении для 2FA и отключая разрешение на доступ к камере для всех приложений.
- Исследователи не публикуют PoC-код, но утверждается, что атака может быть воспроизведена на любом Android-устройстве с 2012 года.
- В конце концов, единственный надёжный способ защиты — это не устанавливать приложения, которые не являются open-source и не требуют излишних разрешений.
Nvidia DGX Spark: great hardware, early days for the ecosystem
NVIDIA представила DGX Spark - настольный "суперкомпьютер" для ИИ размером с Mac mini, стоимостью около $4,000. Внутри скрывается ARM64-система с 20-ядерным процессором, 128 ГБ ОЗУ и 3.7 ТБ SSD, а также мощный GPU NVIDIA GB10 на архитектуре Blackwell с 119.68 ГБ памяти. Устройство нацелено на исследователей ИИ, предназначено как для обучения, так и для запуска моделей.
Основная проблема - совместимость CUDA с ARM64. Большинство библиотек и туториалов предполагают x86-архитектуру, что создает множество сложностей при настройке. Автору удалось найти PyTorch 2.7 для CUDA на ARM, но не для версии 2.8. NVIDIA пытается упростить задачу через официальные Docker-контейнеры, а за последний недобю опубликовала обширную документацию, которой не хватало изначально.
Комментарии (85)
- Обсуждение в основном вращается вокруг сравнения DGX Spark с другими решениями: пользователи отмечают, что при цене в $70 000 он уступает RTX 5090 в производительности и даже RTX 4090, а единственное преимущество — 128 ГБ видеопамяти — ограничено пропускной способностью, что делает его неэффективным для инференса больших моделей.
- Участники также поднимают вопросы о цене, отсутствии DisplayPort и возможности подключения к обычному монитору, а также о том, что DGX Spark не может использоваться для обучения из-за ограниченной памяти и отсутствия NVLink.
- Некоторые комментаторы сравнивают его с MacBook Pro на Apple Silicon, отмечая, что ноутбук дешевле и при этом предлагающий 128 ГБ единой памяти может быть более практичен для инференса.
- Также обсуждается, что NVIDIA в целом не предоставляет нужного ПО для ARM64, что делает его менее привлекательным, и что в целом экосистема CUDA вокруг ARM64 остается сырой.
Prefix sum: 20 GB/s (2.6x baseline)
Гитхаб обновил свою систему поиска кода, сделав её более интуитивной и эффективной. Теперь пользователи могут использовать естественный язык для запросов, например, "find all Go repositories where the number of stars is greater than 1000". Это стало возможным благодаря интеграции искусственного интеллекта, который понимает контекст и синтаксис. В качестве примера, разработчики теперь могут искать код с учётом семантики, а не только по ключевым словам. Это улучшение — часть более масштабного обновления экосистемы GitHub, направленного на улучшение discoverability кода.
Комментарии (31)
- Достигнута пропускная способность 19.8 ГБ/с для префиксной суммы — в 1.8 раз быстрее, чем наивная реализация, и в 2.6 раза быстрее, чем FastPFoR.
- Обсуждение выявило, что при использовании GPU-реализации приходится копировать данные через PCIe, что снижает выгоду от использования GPU.
- Появился вопрос о том, не лучше ли было бы хранить абсолютное значение каждые N дельта вместо потока дельта, что позволило бы распараллелить декодирование.
- Участники обсуждения отметили, что влияние на производительность имеют не только выбор алгоритма, но и такие факторы, как размер кэша L3, частота памяти и архитектура памяти.
AMD signs AI chip-supply deal with OpenAI, gives it option to take a 10% stake 🔥 Горячее 💬 Длинная дискуссия
AMD заключила сделку с OpenAI о поставках чипов для искусственного интеллекта, предоставив также опцион на приобретение 10% доли в компании. Это стратегическое партнёрство усиливает позиции AMD на рынке AI-чипов, где доминирует NVIDIA, и обеспечивает OpenAI доступ к передовым аппаратным решениям для разработки и масштабирования своих моделей.
Опцион на долю демонстрирует глубокую интеграцию интересов: AMD получает ключевого клиента и потенциального инвестора, а OpenAI — влияние на поставщика и приоритетный доступ к технологиям. Это может ускорить инновации в области аппаратного обеспечения для ИИ и снизить зависимость от единственного поставщика.
Комментарии (309)
- AMD предоставила OpenAI опцион на покупку 10% своих акций по цене $0.01 за акцию при выполнении определенных условий
- Сделка призвана стимулировать OpenAI к закупкам GPU AMD на сумму до $100 млрд и совместной разработке ПО для AI-чипов
- Рыночная капитализация AMD выросла примерно на $100 млрд после анонса, что частично компенсирует стоимость опциона
- Многие участники обсуждения расценивают сделку как признак финансового пузыря и циркулярных денежных потоков в AI-индустрии
- Партнерство рассматривается как стратегический ход для создания альтернативы доминированию NVIDIA и CUDA
Circular Financing: Does Nvidia's $110B Bet Echo the Telecom Bubble?
Nvidia инвестирует $110 млрд в OpenAI и другие AI-стартапы через венчурное финансирование, что напоминает стратегию Lucent во время пузыря доткомов. Lucent тогда выделила $8,1 млрд клиентам, которые покупали её оборудование, но после краха 47 телеком-компаний обанкротились, а до 80% кредитов не вернулись. Сейчас Nvidia рискует ещё больше: её обязательства составляют 85% выручки против 20% у Lucent, а 39% доходов зависят всего от двух клиентов.
Новизна ситуации в том, что $10+ млрд долгов обеспечены залогом в виде GPU, с предположением, что их стоимость сохранится на 4–6 лет. Крупные облачные провайдеры уже удлинили сроки амортизации оборудования до 6 лет, но Amazon недавно сократил их до 5, что может сигнализировать о переоценке рисков. Если спрос на AI-инфраструктуру замедлится, это может создать цепную реакцию defaults, особенно среди стартапов, зависящих от финансирования поставщиков.
Комментарии (147)
- Сравнение текущей ситуации с пузырем телекоммуникаций 90-х: есть как сходства (масштабные инвестиции в инфраструктуру, риск перепроизводства), так и ключевые различия (финансовая устойчивость Nvidia vs. мошенничество Lucent).
- Главный риск для Nvidia — возможность резкого падения спроса на GPU, если AGI не будет достигнут в ожидаемые сроки (2-5 лет) или если инвесторы потеряют интерес из-за замедления прогресса.
- Неопределенность долгосрочного спроса: несмотря на текущий ажиотаж, будущее зависит от появления реальных, прибыльных приложений ИИ, а не только от тренировки моделей; возможен избыток мощностей.
- Роль крупных игроков (Microsoft, Google, Amazon) и их кастомерных чипов как потенциальная угроза монополии Nvidia, а также вопросы учетной политики и вендорного финансирования.
- Скептицизм относительно способности ИИ самостоятельно решать сложные задачи и кардинально улучшать код без человеческого контроля, что ставит под вопрос оправданность огромных инвестиций.
Комментарии (76)
- Обсуждение исследования о применении ИИ для предсказания механизма действия нового антибиотика (энтерололина), направленного на лечение воспалительных заболеваний кишечника (ВЗК) через подавление патогенных бактерий.
- Участники подчеркивают, что ИИ не заменяет традиционные лабораторные исследования, а ускоряет и удешевляет процесс, сокращая время и стоимость изучения механизма действия с двух лет и $2 млн до шести месяцев и $60 тыс.
- Критический взгляд на терминологию: различие между ИИ как общим понятием в СМИ и конкретными методами машинного обучения (например, диффузионными моделями), не всегда связанными с LLM.
- Скептические вопросы о новизне открытия, связи ВЗК с E. coli и потенциальной предвзятости при интерпретации предсказаний ИИ, а также о роли экспертов-специалистов в валидации результатов.
- Практические аспекты: доступ к вычислительным ресурсам (GPU) для исследователей, важность междисциплинарного сотрудничества и исторический контекст ранее известных ингибиторов (например, глобомицина).
Track which Electron apps slow down macOS 26 Tahoe
Проект Shamelectron отслеживает проблемы с производительностью GPU в Electron-приложениях на macOS Tahoe. Основная проблема связана с ошибкой в macOS 26, которая вызывает значительное падение производительности графического процессора. Решение уже найдено — необходимо обновить Electron до версий v38.2.0, v37.6.0 или v36.9.2.
Из 21 отслеживаемого приложения только шесть исправлены, а 15 всё ещё имеют проблемы. Среди популярных приложений с неисправленными версиями — 1Password, Discord, Figma, Notion и Obsidian. Пользователям предлагается напомнить разработчикам через Twitter о необходимости обновления, чтобы решить проблему с производительностью.
Комментарии (97)
- Electron использовал приватный API Apple для косметических улучшений окон, что привело к проблемам производительности в macOS Tahoe.
- Проблема затрагивает не только Electron-приложения (например, Zoom), но и вызывает системные сбои в различных приложениях и интерфейсах.
- Баг уже исправлен в последних версиях Electron, но многим приложениям требуется обновление для устранения проблемы.
- Пользователи критикуют переход некоторых приложений (например, 1Password) с нативных технологий на Electron, отмечая ухудшение качества и высокое потребление ресурсов.
- Обсуждаются альтернативы Electron (например, Tauri) и предлагаются способы выявления проблемных приложений.
Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it 🔥 Горячее
В пул-реквесте к Triton представлена реализация механизма persistent attention для ускорения работы с большими контекстами в трансформерах. Вместо пересчета ключей и значений для каждого токена механизм сохраняет их в глобальной памяти, что значительно снижает вычислительную нагрузку при обработке длинных последовательностей.
Автор демонстрирует, как это позволяет эффективно работать с контекстами до 128K токенов, избегая квадратичной сложности традиционного внимания. Практический вывод: такой подход открывает путь к более масштабным моделям без пропорционального роста затрат на вычисления.
Комментарии (141)
- NVIDIA использует хардкод для оптимизации кода, содержащего "cutlass" в названии, что может быть нестабильным и приводить к скрытым багам.
- Подобные практики (оптимизации по именам функций или приложений) исторически распространены среди производителей железа и софта (ATI/AMD, Intel, Microsoft) для улучшения бенчмарков, иногда в ущерб качеству.
- Мотивация таких оптимизаций часто не злонамеренна, а связана с снижением рисков и фокусом на стабильности собственных библиотек, но создаёт новые барьеры.
- В индустрии существуют разногласия по поводу этичности таких практик, но для графических драйверов тюнинг под конкретные игры стал нормой.
- Обсуждаются проблемы проприетарного кода (драйверы, прошивки) и затраты общества на обратную разработку вместо сотрудничества.
The G in GPU is for Graphics damnit
Автор делится опытом оптимизации модели Physarum polycephalum (слизевика) на GPU с использованием Triton. Модель имитирует поведение агентов, оставляющих феромонные следы и реагирующих на их концентрацию. Изначальная реализация на PyTorch страдала от накладных расходов на инициализацию и низкой утилизации GPU из-за мелких операций.
Профилирование выявило, что основные узкие места — этапы сенсоров, движения и диффузии. Автор переписал ключевые части на Triton, объединив сенсорный и двигательный этапы в один ядро и используя атомарные операции для депозиции феромонов. Это позволило добиться 10-кратного ускорения и полной загрузки GPU, подтвердив, что Triton эффективен для задач с мелкозернистым параллелизмом.
Комментарии (75)
- Обсуждается переименование GPU в MPU (Matrix Processing Units) из-за их доминирующего использования в AI, а не графике.
- Поднимается вопрос о том, имеют ли современные AI-ускорители (например, NVIDIA H100) графические выходы и функциональность, поскольку она им не нужна.
- Утверждается, что специализированные GPU для игр теряют актуальность из-за роста мощности интегрированных графических решений (APU) от многих вендоров.
- Обсуждается, что название (GPU) не ограничивает функциональность инструмента, который эволюционирует и находит новое применение (майнинг, AI).
- Высказывается мнение, что CPUs могут обеспечивать лучшее качество рендеринга изображений (прецизионность), хотя и значительно медленнее, чем GPU.
Newton: physics simulation engine built upon NVIDIA Warp
Newton — это открытый движок для физического моделирования с ускорением на GPU, построенный на основе NVIDIA Warp. Он предназначен для робототехников и исследователей в области симуляций, предлагая высокопроизводительные вычисления для задач, требующих точного и быстрого физического эмулирования.
Проект фокусируется на эффективности и доступности, используя современные графические процессоры для ускорения расчётов. Это позволяет исследователям быстрее тестировать алгоритмы и моделировать сложные среды, что особенно ценно в разработке робототехнических систем и научных экспериментах.
Комментарии (25)
- Критика выбора Python как основного языка для библиотеки из-за проблем с производительностью, ошибками и сложностью работы с типами.
- Негативная реакция на название "Newton Physics" из-за возможной путаницы с существующим движком Newton Dynamics и воспринимаемой arrogance авторов.
- Обсуждение технических деталей: использование MuJoCo как бэкенда, запись в CUDA graph для производительности, параллелизация множества сред для reinforcement learning.
- Сравнение с PhysX и мнение, что Newton Physics со временем его заменит, будучи более настраиваемым и расширяемым.
- Замечания о недостатках примеров кода, которые слишком высокоуровневы и не демонстрируют реальные преимущества и сложности использования API.
Cerebras systems raises $1.1B Series G
Cerebras Systems привлекла $1,1 млрд в рамках раунда финансирования серии G, оценив компанию в $8,1 млрд. Инвестиции возглавили Fidelity Management & Research Company и Atreides Management при участии Tiger Global, Valor Equity Partners и других фондов. Средства направят на расширение портфеля технологий в области проектирования AI-процессоров, систем и суперкомпьютеров, а также на увеличение производственных и дата-центровых мощностей в США.
Компания демонстрирует экстремальное превосходство в скорости инференса — её решения до 20 раз быстрее GPU NVIDIA, что привлекло таких клиентов, как AWS, Meta, IBM и US Department of Defense. Cerebras обрабатывает триллионы токенов ежемесячно и лидирует на Hugging Face с 5+ млн запросов. Рост спроса подогревают реальные use-cases вроде генерации кода и агентных систем, где задержки критически дороги.
Комментарии (36)
- Cerebras впечатляет скоростью инференса благодаря уникальной архитектуре с огромным объемом SRAM, но сталкивается с критикой за ненадежность и проблемы с качеством ответов в кодинге
- Пользователи отмечают неясную стратегию ценообразования и развертывания, высокую стоимость подписок и минимальные месячные обязательства
- Обсуждаются возможные причины, по которым компания до сих пор не приобретена: высокая стоимость чипов, сложности упаковки, инвестиции ОАЭ и возможные проблемы, выявленные в ходе due diligence
- Поднимается вопрос, почему компания не заменяет часть ядер на чипе на HBM-память, и обсуждаются технические сложности такой интеграции
- Высказываются предположения, что крупные игроки (Amazon, IBM) могут проявить интерес к приобретению, но отмечается, что у Amazon уже есть собственные чипы Trainium
We bought the whole GPU, so we're damn well going to use the whole GPU 🔥 Горячее
Исследователи из Hazy Research разработали высокопроизводительный мегаядро для тензорно-параллельного вывода Llama-70B на H100, которое агрессивно перекрывает вычисления, работу с памятью и коммуникацию между GPU. Это позволяет одновременно задействовать различные аппаратные ресурсы: тензорные ядра, модули для нетензорных операций, пропускную способность HBM и NVLink. В интеграции с движком Tokasaurus их решение превосходит SGLang на >22% по общей пропускной способности при обработке 65 536 промптов из ShareGPT.
Ключевая идея — использование интерпретатора инструкций, работающего на каждом SM, который позволяет гибко планировать выполнение разнородных операций. Это обеспечивает перекрытие на нескольких уровнях: внутри SM (память и вычисления), между SM (матричные умножения и нормирование) и между GPU (скрытие задержек связи за счёт специальных потоков). Особенно отмечается простота реализации сложных трансформаций данных между GPU прямо после attention-слоя, что трудно выразить стандартными средствами коммуникации.
Комментарии (94)
- Обсуждение эффективности использования GPU: использование всех блоков (NVDEC, NVJPG, RT и тензорные ядра) для декомпрессии весов и вычислений, аналогии с оптимизацией под консоли.
- Проблемы инструментов и драйверов: отставание языков, библиотек и драйверов от возможностей современного железа, сложности компиляторов для гетерогенных систем.
- Виртуализация и разделение ресурсов GPU: обсуждение MIG, MPS для многопользовательского использования, риски утечки данных и ограничения этих технологий.
- Сравнение с другими платформами: упоминание Apple Metal и открытости драйверов, потенциал использования GPU для аудиообработки и сигналов.
- Критика и ирония: сравнение стиля статьи с "Трансгрессия границ", комментарии о "коде, который не предназначен для поддержки" и неожиданно доступных оптимизациях в крупных лабораториях.
We reverse-engineered Flash Attention 4
Новая версия Flash Attention 4 оптимизирована под архитектуру Blackwell от Nvidia и обещает ~20% прирост скорости по сравнению с предыдущим рекордсменом — закрытыми ядрами внимания в библиотеке cudnn. Хотя официального отчёта нет, исходный код уже доступен, что позволило разобрать его устройство. Главное изменение — не математические трюки (вроде быстрых приближённых экспонент или эффективного онлайн-softmax), а сложная асинхронная конвейеризация операций, напоминающая принципы параллельного программирования из высокопроизводительных систем вроде баз данных или веб-серверов.
Архитектура FA4 построена вокруг обработки «тайлов» — блоков данных, которые потоково считываются из глобальной памяти GPU. Один экземпляр ядра обрабатывает два тайла запросов, последовательно сканируя все ключи и значения, чтобы вычислить взвешенные выходные данные. Это напоминает векторized-сканирование в СУБД. Масштабирование достигается за счёт массового параллельного запуска таких программ по модели «одна программа — много данных». Подход требует глубокой асинхронности и эффективного использования warp-ов, но остаётся интуитивно понятным для инженеров, работавших с конкурентными системами.
Комментарии (40)
- Обсуждение термина "reverse engineering" применительно к анализу исходного кода и его пониманию.
- Критика стиля и структуры блог-поста за избыточные отсылки к исследованиям и недостаток конкретики.
- Замечания о сложности написания эффективных GPU-кернелов для современного железа и упоминание тренда на "мегакернелы".
- Запрос рекомендаций по обучающим материалам для начинающих в GPU-программировании.
- Положительные отзывы о содержании поста и его развлекательном, доступном стиле.
Handy – Free open-source speech-to-text app written in Rust
Handy — это бесплатное приложение с открытым исходным кодом для преобразования речи в текст, которое работает локально на вашем компьютере. Оно позволяет диктовать текст в любое поле ввода, просто нажимая и удерживая комбинацию клавиш (по умолчанию Ctrl+Z), а затем вставляя расшифровку после отпускания. Настройки включают переключение между режимом удержания и однократного нажатия для начала и остановки транскрипции.
Приложение полностью приватное — аудио не отправляется в облако, всё обрабатывается на устройстве. Handy позиционируется как доступный инструмент, свободный от подписок, с возможностью кастомизации и поддержкой сообщества через спонсоров like Wordcab и Epicenter. Проект приглашает к участию в разработке и финансировании.
Комментарии (85)
- Пользователи обсуждают высокое потребление ресурсов современных десктопных приложений, приводя примеры, где даже простые действия занимают значительный объем памяти (~120MB).
- Представлены альтернативные и похожие инструменты для преобразования речи в текст (STT), такие как Whispy (Linux), hns (CLI), Gnome расширение и VoiceInk, с акцентом на локальность и минимализм.
- Обсуждаются технические детали проектов: использование моделей Whisper и Parakeet, поддержка GPU/CPU, кроссплатформенность, языки разработки (TypeScript, Rust, Go) и вопросы шумоподавления.
- Участники сравнивают качество и удобство локальных решений с облачными сервисами (например, Groq) и встроенными функциями ОС (macOS dictation, iPhone STT).
- Затрагиваются темы приватности, производительности на слабом железе, удобства использования для программирования и запросы на аналогичные инструменты для преобразования текста в речь (TTS).
SimpleFold: Folding proteins is simpler than you think 🔥 Горячее
Apple выпустила open-source библиотеку ML-SimpleFold для предсказания трёхмерной структуры белков на основе их аминокислотной последовательности. Она использует архитектуру трансформеров и оптимизирована для эффективного обучения и инференса на GPU. Код написан на PyTorch и включает инструменты для подготовки данных, обучения моделей и визуализации результатов.
Библиотека поддерживает предсказание структур как отдельных белков, так и комплексов, с акцентом на скорость и воспроизводимость. Это демонстрирует растущий интерес крупных tech-компаний к computational biology. Практический вывод: инструмент упрощает исследования в биоинформатике, снижая барьер входа для научных групп без мощных вычислительных ресурсов.
Комментарии (126)
- Представлена упрощенная модель предсказания структуры белков SimpleFold, использующая подход knowledge distillation от сложных моделей (AlphaFold, ESMFold) и демонстрирующая высокую эффективность.
- Обсуждается, что модель обучалась на данных, сгенерированных другими ИИ-системами, а не на экспериментальных структурах, что поднимает вопросы о её истинной новизне и независимости.
- Подчеркивается тренд на упрощение архитектур моделей для предсказания folding, следуя "bitter lesson" в ML, и потенциальные выгоды для локального inference на потребительском железе.
- Участники спорят, является ли проблема folding решенной после AlphaFold, и в чем разница между физическими симуляциями (Folding@Home) и статистическими методами (ИИ).
- Высказываются предположения о мотивации Apple заниматься этой темой: от престижа и маркетинга до практических целей вроде оптимизации чипов и развития локальных вычислений.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.
OpenAI and Nvidia announce partnership to deploy 10GW of Nvidia systems 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (567)
- Обсуждение масштабов энергопотребления (10 ГВт) и сравнение его с потреблением целых городов или стран, а также опасения по поводу экологических последствий и нагрузки на энергосистемы.
- Критика сделки как формы "round tripping" — схемы, при которой NVIDIA инвестирует в OpenAI, чтобы та покупала её же оборудование, искусственно завышая выручку и поддерживая рыночный пузырь.
- Скептицизм по поводу целесообразности и формулировок партнёрства, воспринятых как бессодержательный корпоративный жаргон и признак пика "AI пузыря".
- Обсуждение технических деталей: что означает измерение в гигаваттах, сколько чипов это представляет и как это скажется на потребительском рынке GPU.
- Вопросы о источнике энергии и водных ресурсах для дата-центров, а также о роли регуляторов в управлении этим воздействием.
Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.
Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.
Комментарии (10)
- Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
- Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
- Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
- Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
- Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.
Processing Strings 109x Faster Than Nvidia on H100
Выпущена StringZilla v4 — первая версия библиотеки для обработки строк с поддержкой CUDA, которая ускоряет вычисления на GPU. Она обеспечивает до 500 гигаопераций в секунду для расчёта расстояний Левенштейна и других метрик схожести строк, что в 109 раз быстрее решений на NVIDIA H100. Библиотека оптимизирована для больших объёмов данных в базах данных, биоинформатике и информационном поиске, включая алгоритмы с аффинными штрафами за разрывы и мини-хэширование.
Новые функции включают хэш-функции на основе AES, генераторы псевдослучайных строк и алгоритмы сортировки для работы с коллекциями строк. StringZilla использует SIMD-инструкции на CPU и GPU, поддерживает несколько архитектур и языков программирования. Библиотека распространяется под лицензией Apache 2.0 и доступна через pip, предлагая надёжный и быстрый базис для масштабируемых workloads.
Комментарии (23)
After publishing this a few days ago, 2 things have happened.First, it tuned out that StringZilla scales further to over 900 GigaCUPS around 1000-byte long inputs on Nvidia H100. Moreover, the same performance is obviously accessible on lower-end hardware as the algorithm is not
An untidy history of AI across four books
История искусственного интеллекта — это не линейный прогресс, а хаотичный путь с неожиданными поворотами. Исследования начались после Второй мировой с символического подхода, пытавшегося запрограммировать логику и семантику, но он упёрся в ограничения. Машинное обучение, долго игнорируемое из-за нехватки данных и вычислительной мощности, прорвалось благодаря интернету и GPU — технологиям из игровой индустрии.
Ключевым моментом стал 2011 год, когда нейросеть команды Крижевского, Сатсквера и Хинтона показала 85% точности в ImageNet, перевернув поле. OpenAI, основанная в 2015 году, выпустила ChatGPT почти без рекламы в 2022-м и столкнулась с неожиданным ажиотажем. Сегодня индустрия переоценена: OpenAI оценивают в $300 млрд, хотя реальные возможности ИИ часто преувеличиваются. Книга «AI Snake Oil» призывает трезво оценивать заявления об ИИ, отделяя факты от маркетинговой шумихи.
Комментарии (37)
- Участники обсуждают рекомендуемые книги по истории и философии ИИ, отмечая недостаток европейского и восточного вклада в некоторых из них.
- Критикуется качество публичного дискурса об ИИ, который часто ведут неэксперты, и поверхностность статьи, не раскрывающей фундаментальные ограничения современных подходов к машинному обучению.
- Высказываются сомнения в экспертизе некоторых авторов (например, Генри Киссинджера) и политической нейтральности издания The Hedgehog Review.
- Обсуждается отсутствие в списке классической работы «Machines Who Think» и упоминается собственная книга участника дискуссии.
- Несколько пользователей делятся личным опытом: уже прочитали некоторые из рекомендованных книг или ищут новые материалы для изучения.
Intel Arc Celestial dGPU seems to be first casualty of Nvidia partnership
Intel, похоже, отменяет разработку высокоуровневого десктопного GPU Arc Celestial — первой жертвы партнёрства с Nvidia. В то же время модель Arc B770, относящаяся к архитектуре Battlemage, всё ещё ожидается в текущем квартале, хотя и с ограниченным выпуском и проблемами в производительности, включая неровный фреймрейт.
По данным инсайдеров, B770 сохранит 32 Xe-ядра и 256-битную шину памяти, достигая уровня GeForce RTX 4070, но без поддержки PCIe 5.0. Если Celestial действительно закрыт, это может означать конец самостоятельным десктопным GPU от Intel, что станет ударом по конкуренции на рынке, несмотря на ранее успешный запуск более доступной модели B580.
Комментарии (72)
- Участники обсуждают заявление CEO Intel о необходимости 50% маржи для новых продуктов и опоздании компании в сфере AI, выражая скептицизм и опасения о будущем Intel.
- Основная критика направлена на ненадежность источника новости (канал Moore's Law Is Dead), который ранее неоднократно ошибался в прогнозах о судьбе видеокарт Intel Arc.
- Обсуждается стратегическая ценность подразделения графики (GPU) для Intel как точки входа на рынок и источника внутренних компетенций, несмотря на небольшую долю игрового рынка в сравнении с датацентрами.
- Высказываются мнения, что отказ от продуктов с низкой маржой может быть ошибкой, так как это мешает загрузке собственных мощностей и долгосрочному росту.
- Уточняется, что заявление CEO, вероятно, относилось только к опозданию в сфере тренировки AI-моделей (training), оставляя возможность для участия в выводе (inference).
Комментарии (102)
- Критика сборки ПК с двумя видеокартами RTX 3090 для локального ИИ: проблемы с совместимостью компонентов, перегревом и выбором материнской платы.
- Обсуждение практичности локального запуска LLM: модели уступают облачным в качестве, но ценны для офлайн-среды, хотя требуют больших затрат на электроэнергию.
- Сравнение вариантов железа для ИИ: обсуждаются плюсы 3090 (NVLink, VRAM), альтернативы (RTX 4090 48GB, RTX 6000 ADA, AMD MI50) и их стоимость.
- Отмечаются технические проблемы со статьей: заблокировано копирование текста, ссылки ведут на ошибку 403.
- Делается вывод, что подобные сборки не новы и могут быть нецелесообразны для начинающих или для тренировки моделей.
Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs
LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.
Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.
Комментарии (15)
- Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
- Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
- Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
- Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
- Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.
Were RNNs all we needed? A GPU programming perspective
Упрощённые версии GRU и LSTM (minGRU и minLSTM) позволяют заменить последовательные вычисления на параллельные, устраняя зависимость скрытого состояния от предыдущего шага. Это достигается за счёт переопределения гейтов так, чтобы они зависели только от текущего входа, что превращает рекуррентное обновление в линейную форму, разрешимую алгоритмом параллельного сканирования (scan). Такой подход сокращает сложность с O(T) до O(log T), что критично для ускорения на GPU.
Реализация на CUDA демонстрирует значительное ускорение: для последовательностей длиной 65 536 шагов время выполнения сокращается с ~13 секунд на CPU до ~5,3 секунд на GPU для GRU и с ~13 до ~6,7 секунд для LSTM. На коротких последовательностях (T < 2048) преимущество менее выражено из-за накладных расходов на распараллеливание, но с ростом длины масштабирование становится явным. Это подтверждает, что даже минимальные изменения в архитектуре RNN могут радикально улучшить их производительность на параллельных вычислениях.
Комментарии (23)
- Обсуждаются архитектурные ограничения классических RNN/LSTM, в частности их последовательная природа, препятствующая эффективному распараллеливанию на GPU.
- Представлены упрощённые модели (minGRU, minLSTM) и альтернативные архитектуры (например, RWKV), которые пытаются устранить эти ограничения и конкурировать с трансформерами.
- Поднимается вопрос о возможности параллельного обучения RNN на разных независимых текстах (книгах) и обсуждаются сложности синхронизации градиентов.
- Уточняется, что мозг человека вряд ли является RNN, и выдвигаются альтернативные гипотезы о его работе, например, как модели поиска устойчивого состояния (equilibrium model).
- Обсуждается исторический контекст: почему трансформеры, несмотря на потенциальную эффективность RNN, стали доминировать благодаря лучшей параллелизации обучения.
Nvidia buys $5B in Intel 🔥 Горячее 💬 Длинная дискуссия
Nvidia и Intel объявили о совместной разработке процессоров Intel x86 RTX SOC для ПК с графикой Nvidia, а также о создании пользовательских серверных процессоров x86 от Nvidia. В рамках масштабной сделки Nvidia приобрела акции Intel на сумму $5 млрд.
Комментарии (568)
- Опасения по поводу негативного влияния на конкуренцию: инвестиции Nvidia могут угрожать развитию графического подразделения Intel (Arc), которое сдерживает цены на GPU и важно для Linux-сообщества.
- Стратегический интерес Nvidia: сделка может быть направлена на получение доступа к производственным мощностям Intel (фабрикам) и созданию гибридных решений (CPU + GPU), а не на прямую конкуренцию на рынке видеокарт.
- Политический и экономический контекст: инвестиции могут быть продиктованы желанием правительства США поддержать национального производителя полупроводников и диверсифицировать цепочки поставок.
- Исторические параллели: сравнение со сделкой Microsoft и Apple в 1997 году, которая спасла последнюю, и надежды на аналогичный положительный исход для Intel.
- Влияние на архитектуру и рынок: возможный сдвиг в сторону интеграции графики в SoC (системы на кристалле) и потенциальные риски для x86-64 лицензирования Intel.
Gluon: a GPU programming language based on the same compiler stack as Triton
Навигационное меню GitHub с разделами:
- Платформа: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
- Решения: для предприятий, малых команд, стартапов, некоммерческих организаций
- Ресурсы: статьи по AI, DevOps, безопасности, разработке ПО
- Open Source: спонсоры, проекты, репозитории
- Enterprise: платформа, дополнения
- Цены
Поиск кода, репозиториев, пользователей, issues и pull requests. Возможность сохранения поисковых запросов.
Комментарии (21)
- NVIDIA Tilus представляет собой низкоуровневый инструмент для контроля над регистрами, возможно, как ответ на Triton, который поддерживает AMD и другие ускорители, угрожая экосистеме CUDA.
- Название Gluon уже используется несколькими проектами, включая язык для ML от Amazon/Microsoft, UI-тулкит для Java и встраиваемый язык для Rust, что создает путаницу.
- Gluon от NVIDIA рассматривается как сходный с их же CUTE DSL, что указывает на convergence к оптимальному дизайну Python-based DSL для программирования ядер.
- Мнения разделились: одних смущает, что «язык» остается кодом на Python, требующим трассировки, другие считают такой подход на основе AST-walker эффективным.
- Появление Gluon связано со сложностями Triton в достижении высокой эффективности на новых архитектурах NVIDIA, таких как Blackwell.
- NVIDIA разрабатывает множество DSL, что свидетельствует о их беспокойстве из-за открытых и портируемых альтернатив CUDA.
- На экосистему CUDA оказывают давление крупные компании, разрабатывающие собственные чипы для AI, чтобы избежать зависимости от NVIDIA.
Alibaba's new AI chip: Key specifications comparable to H20 🔥 Горячее 💬 Длинная дискуссия
Алибаба представила новый ИИ-чип с характеристиками, сопоставимыми с H20.
Комментарии (274)
- Китай запретил закупки чипов NVIDIA и стимулирует развитие собственных AI-чипов, чтобы сократить технологический разрыв
- Китайские чипы (например, от Alibaba) пока уступают флагманским GPU NVIDIA (Blackwell, H100) и сравнимы с более старыми моделями (A100, H20)
- Ключевым барьером NVIDIA считается не столько hardware, сколько программная экосистема (CUDA), создающая сильную привязку клиентов
- Экспортные ограничения США вынуждают Китай развивать собственное производство, но возникают проблемы с качеством, совместимостью и производительностью
- Вопросы вызывают возможности Китая в передовой литографии (EUV) без доступа к оборудованию ASML
- Часть комментаторов расценивает новости как пропаганду или считает, что успехи Китая основаны на краже IP и господдержке без оглядки на прибыль
- Сокращение доступа к NVIDIA может замедлить развитие AI в Китае, но также стимулирует глобальную конкуренцию и снижение цен на GPU
RustGPT: A pure-Rust transformer LLM built from scratch 🔥 Горячее 💬 Длинная дискуссия
RustGPT
Трансформерная языковая модель, полностью написанная на Rust.
Комментарии (170)
- Проект представляет собой реализацию LLM (языковой модели) на Rust "с нуля" как учебный эксперимент для понимания принципов работы.
- Отмечается читаемость и лаконичность кода по сравнению с большими фреймворками вроде PyTorch/TensorFlow.
- Обсуждаются технические детали реализации: использование констант из
lib.rs, структура трансформерных блоков, применение крейтовndarray,rand. - Поднимаются вопросы о данных для обучения: источник, объём (в проекте используется небольшой встроенный набор), возможности для непрерывного обучения.
- Упоминаются проблемы и сложности: отладка backpropagation, отсутствие GPU-ускорения, потенциальная неэффективность реализации.
- Высказываются мнения о экосистеме: преимущества
cargoнад "dependency hell" в Python, но и риски лёгкого включения зависимостей. - Обсуждаются возможные улучшения: добавление численного тестирования градиентов, лицензии, GPU-акселерация, бенчмарки.
- Проект сравнивают с другими аналогичными реализациями на Rust и Zig, а также с кодом, сгенерированным ИИ.
- Отмечается впечатляющая скорость генерации первого токена и простота запуска (
cargo run).
AMD’s RDNA4 GPU architecture
- RDNA4 — архитектура для RX 9000: +эффективность в RT, ML и растеризации, новые кодеки и движок вывода.
- Медиа-блок (2 шт. в 9070 XT): быстрее декод, экономия энергии; улучшен кодек H.265/AV1 при минимальной задержке. В режиме low-latency VBR качество (VMAF) выше при меньшем битрейте; скорость кодирования 190 → 200 fps.
- Дисплей — вывод кадров из памяти, композитинг, готов к новым стандартам.
Комментарии (37)
- Обсуждение началось с восхищения MI300A, но быстро перешло к тому, насколько важно снижение энергопотребления GPU в простое.
- Многие пользователи оставляют ПК включёнными ночью для лёгких задач и раздражены 100–150 Вт «вхолостую»; считают, что 4–10 Вт у Radeon 9070 — большой плюс.
- Экономия каждого ватта масштабируется: ×миллионы систем = сотни мегаватт и меньше тепла в комнате; выгода есть и у домашних серверов, и у коммерческих станций.
- Оптимизация одновременно продлевает жизнь карты, увеличивает battery-life ноутбуков/Steam Deck/PS6-портативов и повышает performance-per-watt.
- Архитектура едина для десктопа и мобильники, поэтому «починить глупость» с idle-питанием даёт сразу 3 ч дополнительной автономии на двухэкранных ноутах.
- RDNA4 действительно добавляет native FP8/BF8 (WMMA 16×16), но матричные блоки заметно меньше, чем у NVIDIA Blackwell, что влияет на пропускную способность в AI.
Qwen3-Next 🔥 Горячее 💬 Длинная дискуссия
Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.
Комментарии (198)
- Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
- На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
- Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
- Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
- GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.
Spiral
Spiral: Data 3.0
Новая эпоха — машины потребляют и выдают данные петабайтами.
Postgres и Lakehouse были рассчитаны на человека: входы и выходы — килобайты.
AI-хранилище должно отдавать 4 млн изображений в секунду, иначе H100 простаивает 70 % времени.
Почему ломается стек
Parquet → Arrow → tensors → кэш → GPU: 5 лишних шагов, 10× память, 55 ч сети на 1 с GPU-нагрузки.
Мелкие файлы (100 КБ) убивают S3, эмбеддинги и картинки застревают в «мертвой зоне» 1 КБ–25 МБ.
Побочные эффекты
- Цена/скорость: инженеры крутят ETL вместо обучения.
- Безопасность: в угони скорости открывают S3 и сливают базы через MCP-коннекторы. Долг превращается в 10× технический долг.
Spiral = хранилище для машин
- Потоковое чтение петабайтов без распаковки.
- Поиск, сэмплы, случайные чтения за миллисекунды.
- Модель доступа «по-умолчанию закрыто» → безопасность не тормозит.
Результат
GPU загружен, инженеры пишут модели, а не пайплайны.
Комментарии (79)
- Сайт красивый, но без технических деталей: это пресс-релиз нового формата Vortex и СУБД Spiral, а не продукт.
- Vortex — колонковый формат «для эры ИИ», обещает прямую разгрузку из S3 в GPU, минуя CPU и сетевые задержки.
- Критика: нет цифр, нет сравнений с Parquet/Lance/Delta, много маркетинга («AI-scale», 22 млн $ сид-раунда) и мало кода.
- Потенциальная польза — ускорение OLAP-пайплайнов обучения моделей, но вопросы к транзакциям, изменяемости и реальному бенчмарку остаются.
Defeating Nondeterminism in LLM Inference 🔥 Горячее
Почему LLM неповторяемы и как это исправить
Проблема
Даже при temperature=0 и одном железе выводы моделей различаются от запуска к запуску. Популярное объяснение: «параллельные GPU-ядра + погрешности float = недетерминизм». Это не вся правда.
Что на самом деле происходит
- Все «математические» ядра (matmul, softmax и т.д.) внутри одного forward-прохода детерминированы — бит-в-бит.
- Недетерминизм появляется между forward-проходами:
- динамическое разбиение работы на потоки (different thread blocks);
- неупорядоченные редукции при вычислении
softmax/layernorm; - разные стратегии
cudnn/cublasв зависимости от загрузки GPU; - кэш-промахи и
atomicAddв attention.
Как убедиться
A = torch.randn(2048, 2048, device='cuda', dtype=torch.bfloat16)
B = torch.randn(2048, 2048, device='cuda', dtype=torch.bfloat16)
ref = A @ B
for _ in range(1000):
assert (A @ B == ref).all() # всегда True
Матричное умножение повторяется, а вот softmax(A @ B) — уже нет.
Побеждаем за 3 шага
-
Фиксируем редукции
torch.use_deterministic_algorithms(True)CUBLAS_WORKSPACE_CONFIG=:4096:8(для CUDA ≥10.2)export CUDA_LAUNCH_BLOCKING=1(медленно, но зато стабильно).
-
Отключаем динамические алгоритмы
torch.backends.cudnn.deterministic = Truetorch.backends.cudnn.benchmark = False- в vLLM:
--disable-custom-all-reduce,--enforce-eager.
-
Контролируем параллелизм
- фиксированный батч и длина последовательности;
- один GPU-поток (
tensor_parallel_size=1); - один и тот же порядок запросов (queuing seed).
Результат
На Llama-3-8B с vLLM + указанными флагами 1000 прогонов дают идентичные токены вплоть до последнего бита. Стоимость: ≈8 % к throughput.
TL;DR
Недетерминизм — не «float плавает», а race-conditions вне математического ядра. Убери их, и LLM станет строго воспроизводимым.
Комментарии (117)
- Корень проблемы: «один и тот же» запуск LLM выдаёт разные токены из-за race-конкуренции ядер, неассоциативности float и недетерминированных GPU-ядёр; авторы показали, как зафиксировать порядок операций и получить бит-в-бит повтор.
- Практика: temperature=0 ≠ гарантия: во-первых, библиотеки всё равно подкладывают ε>0, во-вторых, MoE-модели выбирают экспертов в зависимости от состава батча, поэтому даже «одинаковый» запуск в API почти никогда не повторяется.
- Зачем нужна детерминированность: CI-тесты, отладка багов, шеринг промптов между разработчиками, валидация через LLM, агентские цепочки и RL-обучение требуют, чтобы «один и тот же вход = один и тот же выход».
- Ограничения: статья решает только замкнутую задачу inference-ядер; контекст, семантически эквивалентные формулировки и много-нодовые коллективы остаются источником разброса; при temperature>0 нужен фиксированный PRNG-сид.
Intel Arc Pro B50 GPU Launched at $349 for Compact Workstations 💬 Длинная дискуссия
- Intel Arc Pro B50 — полупрофессиональная видеокарта на базе Battlemage BMG-G21 (16 Xe2-ядер, 16 ГБ GDDR6, 128-бит, 224 ГБ/с, 70 Вт, питание только от слота PCIe 5.0 x8).
- Форм-фактор low-profile, dual-slot, 4×mini-DP — ставится в компактные SFF-станции без дополнительных проводов.
- Целевые задачи: CAD, визуализация, локальный ИИ-инференс до 170 TOPS (INT8); драйверы сертифицированы под профессиональные приложения.
- Цена 349 $, продаётся как в рознице, так и в OEM-системах.
Комментарии (235)
- Arc Pro B50 ≈ 1.5× быстрее RTX A1000, но это лишь догоняющий показатель против 1,5-летней карты.
- 16 ГБ за $350 хвалят, но многие требуют 32–96 ГБ для ИИ/3D; Intel и AMD не делают, Nvidia тоже ограничивает.
- Однослотовая, 70 Вт, 4×DP, SR-IOV и vGPU — плюсы для серверов и виртуализации.
- Поддержка ПО (IPEX, Vulkan, игры) всё ещё сыровата; 8-потоковый лимит кодирования остался.
- Рынок разделился: кто-то хочет «много памяти за разумные деньги», кто-то смеётся, что «играть всё равно нельзя».
Shipping textures as PNGs is suboptimal
Перестаньте пихать PNG в игры
PNG — хорош для обмена, но плох для текстур: нет мипмапов, кубемапов, premultiplied-альфы и GPU-сжатия (BCn).
При загрузке приходится распаковывать и тратно пересжимать — тормоза и лишняя память.
Что делать
Используйте KTX2 или DDS: заголовок + готовые GPU-данные, можно сжать ещё zlib/lz4.
Для мобильных — Basis Universal, транскодит под нужный формат на лету.
Экспорт
В редакторе кнопки нет; берите готовый open-source-конвертер Zex или пишите свой.
Комментарии (57)
- Нет готового OSS-инструмента, который за один вызов делает мипмапы → BC/ASTC → KTX2+zstd для всех типов текстур.
- Все крупные движки решают это собственным импорт-пайплайном; остальные катят свои скрипты вокруг Compressonator, DirectXTex или старых ISPC-библиотек.
- GPU-ускорение есть только в закрытых NVIDIA/AMD утилитах и части шейдеров Compressonator; открытых «одним бином» всё равно нет.
- Для веба и мобилок часто берут PNG/JPG и конвертят уже на клиенте, жертвуя RAM/бандвидсом; Basis Universal/KTX2 пока единственный разумный компромисс.
- Нейро-компрессия обещает «всё заменить», но пока не в продакшене; старые палитровые форматы в GPU никто не хочет возвращать.
Why is Japan still investing in custom floating point accelerators?
- Япония продолжает финансировать Pezy Computing, создающую энергоэффективные математические ускорители SC4S/SC5, способные заменить GPU в HPC и ИИ.
- SC4S: 2 048 ядер, 8 TFLOPS FP64, 200 Вт, 40 нм; SC5: 16 384 ядер, 64 TFLOPS FP64, 400 Вт, 7 нм; оба используют SIMD и обходятся без HBM, охлаждаясь жидкостью.
- Ускорители уже стоят в 6-8 системах ТОП500; пиковая энергоэффективность 32 GFLOPS/Вт.
- Драйверы OpenCL/CUDA-аналог ZCL, компиляторы Fortran/C++ готовы; в 2026-2027 ждут SC6 (128 TFLOPS FP64, 7 нм) и SC7 (E级, 3 нм).
- Цель: 10× экономия энергии и долгая независимость от NVIDIA/Intel.
Комментарии (74)
- Япония развивает собственные HPC-акселераторы (Pezy и др.), ориентированные на FP64 и традиционные суперкомпьютерные задачи, а не на ИИ-низкоточность.
- Эти чипы создаются под кластеры с жидкостным охлаждением и продаются не поштучно, а целыми стойками.
- Производительность FP64 у Pezy конкурентна с NVIDIA, но энергоэффективность и программное окружение NVIDIA пока непревзойдены.
- Японские компании и государство инвестируют в HPC-экосистему, чтобы сохранить технологический суверенитет и не зависеть от американских GPU.
- Участники обсуждают, насколько целесообразно переключение на альтернативные форматы чисел (posits) и почему правительства продолжают финансировать «собственных лошадей» несмотря на риск провала.
ML needs a new programming language – Interview with Chris Lattner 🔥 Горячее 💬 Длинная дискуссия
- Крис Латтнер (LLVM, Swift) делает новый язык Mojo, чтобы ML-код был быстрым и удобным.
- Проблема: GPU-ядра пишутся на CUDA/OpenCL вручную, медленно и зависят от одного вендора.
- Решение: язык с метапрограммированием и типами, который «знает» об аппаратуре и генерирует оптимальный код под любую платформу.
- Цель: один код → любой GPU/CPU, открытая экосистема, no lock-in.
Комментарии (255)
- Mojo обещает «Python++, но быстрый», но до сих пор нет полноценных классов, а «полный суперсет» превратился в мягкое «всё ещё не Python».
- Лицензия проприетарная — для многих это стоп-фактор: «сделайте GPL или идите лесом».
- Экосистема Python неподвластна: все уже завязаны на PyTorch/CUDA, а Mojo пока не даёт причин мигрировать.
- Julia, Elixir/Nx, CuPy, Triton, Numba — всё уже умеют «быстро + GPU», без нового языка.
- Итог: Mojo выглядит технически интересным, но «ещё один закрытый язык» в 2025 году воспринимается как ненужный риск.
LLM Visualization 🔥 Горячее
Визуализация Больших Языковых Моделей
Главная
Комментарии (38)
- Пользователи восторгаются визуализацией работы LLM, называя её «искусством» и полезным учебным ресурсом.
- Приводятся ссылки на похожие визуализации (Transformer Explainer, Illustrated Transformer, видео Karpathy).
- Обсуждается, что модель выглядит простой (уравнение внимания на салфетке), но остаётся «чёрным ящиком» для понимания принятия решений.
- Уточняется: LLM уже запускаются на чипах (ноутбук, телефон), дата-центры нужны для обучения и масштабирования.
- Вспоминаются предпосылки бума: рост GPU, алгоритм Transformer, идея извлекать знания из данных вместо ручного кодирования.
Video Game Blurs (and how the best one works) 🔥 Горячее
- Размытие в играх — основа эффектов: Bloom, DoF, UI.
- Цель: быстрое размытие в реальном времени на GPU.
- Путь: от простого Box Blur до Dual Kawase Blur.
Box Blur
Среднее цветов в квадрате.
Проблема: O(n²) по радиусу, медленно.
Ядро (kernel)
Матрица весов для свёртки.
Box = все веса 1.
Gaussian = веса по нормальному распределению.
Gaussian Blur
Два прохода: горизонталь + вертикаль → O(n) вместо O(n²).
Но: при радиусе > 10 всё ещё дорого.
Частоты
Размытие = низкочастотный фильтр.
Можно свернуть сразу в частотной области, но FFT на маленьких изображениях не выигрывает.
Оптимизации
- Билинейная интерполяция: считаем не каждый пиксель, а с шагом 2×, экономим 4× выборок.
- Даунсемплинг: уменьшаем изображение в 2×, размываем, растягиваем обратно — почти бесплатно.
Kawase Blur
4–5 проходов с offset-выборками по спирали.
Выглядит как Gaussian, но дешевле при больших радиусах.
Dual Kawase Blur
Пара Kawase-проходов на уменьшенной копии + один upscale.
Результат: кинематографическое размытие за O(log n).
Используют Unreal, Unity, Frostbite — де-факто стандарт.
Итог
Dual Kawase = лучшее соотношение качество/скорость для больших радиусов в реальном времени.
Комментарии (38)
- Автор статьи рассказал о Dual-Kawase Blur и личном интервью с Масаки Кавасэ.
- Участники обсудили, что Kawase-blur 2005 года уступает современным боке-эффектам, но всё ещё полезен на слабом железе.
- Поднят вопрос: как адаптировать Kawase для compute-шейдеров без записи в DRAM.
- Уточнили, что гауссово размытие можно точно получить в Фурье-пространстве, но это не всегда быстрее.
- Появились советы по улучшению читаемости (убрать выключку) и объяснено, что Spherical Harmonics не связаны с размытием.
Anthropic raises $13B Series F 🔥 Горячее 💬 Длинная дискуссия
- $13 млрд привлекла Anthropic в раунде Series F под руководством ICONIQ; оценка компании — $183 млрд после сделки.
- В раунде также участвовали Fidelity, Lightspeed, Altimeter, BlackRock, Coatue, Goldman Sachs, GIC, Qatar Investment Authority и другие.
- С момента запуска Claude в марте 2023 г. выручка выросла до $5 млрд годового темпа (с $1 млрд в январе 2025 г.).
- Среди 300 тыс. корпоративных клиентов число крупных контрактов (>$100 тыс.) выросло почти в 7 раз за год.
- Продукты: API, отраслевые решения, Claude Code (>$500 млн выручки за 3 месяца после запуска), Claude Pro.
- Инвестиции пойдут на расширение мощностей, исследования безопасности и международное развитие.
Комментарии (514)
- Раунд Anthropic вырос с $5 до $13 млрд: участники считают это либо «последним вдохом» пузыря, либо логичным шагом в «гонке вычислений», где решают GPU и электроэнергия.
- Скептики указывают на отсутствие устойчивой модели монетизации, сжатие маржи и риск повторения Enron; оптимисты сравнивают с YouTube-2006, который тоже сжигал деньги, но выиграл рынок.
- Несколько комментаторов подчёркивают, что 75 % вливаний уйдёт NVIDIA, а инфраструктурные затраты уже сопоставимы с ВВП небольших стран.
- В обсуждении звучат экологические и социальные вопросы: «зачем экономить лампочками, если тратишь тераватты на генераторы бесполезного порно».
- Наконец, многие сетуют, что обычные инвесторы отрезаны от таких сделок: «в 90-х Anthropic уже торговалась бы на NYSE, а Zoomers могут только смотреть со стороны».
Rasterizer: A GPU-accelerated 2D vector graphics engine in ~4k LOC
Rasterizer — GPU-ускоренный движок 2D-векторной графики от mindbrix.
Проект на GitHub: mindbrix/Rasterizer.
Комментарии (51)
- Автор показал компактный GPU-рендерер 2D-векторов (Rasterizer), 10 лет развивавшийся из VectorGL; использует «традиционный» граф-конвейер Metal, а не compute-шейдеры.
- Лицензия «personal-use zlib» вызывает вопросы: неясно, что считать личным/некомерческим и можно ли распространять ПО с этой библиотекой.
- Производительность конкурентна с Vello (Apache/MIT) и, вероятно, выше Rive на сложных сценах; у Vello бывают подвисания при зуме.
- Поддерживаются любые масштабы и огромные пути, но самопересечения и правило winding остаются главной головной болью параллелизации.
- Реализованы только базовые заливки; текста, градиентов, фильтров пока нет. Кеширование текстур не используется — 60 fps достигается полным перерисом.
- Планы: добавить коммерческую лицензию, написать подробный пост о методике, оценить порт на Vulkan/OpenGL.
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.
Are OpenAI and Anthropic losing money on inference? 🔥 Горячее 💬 Длинная дискуссия
- Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
- Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
- Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.
Пропускная способность
- Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
- Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.
Цена за токен
- Вход: $0,003/млн токенов (почти даром).
- Выход: $3/млн токенов (реальные деньги).
Почему ограничивают контекст
- При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
- Поэтому Claude Code режет контекст до 200 k: дешевле.
Пользовательская экономика
- ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.
Комментарии (438)
- Математика статьи критикуется: расчёт пропускной способности префилла завышен минимум в 1000 раз, а достигаемая MFU превышает физический предел GPU.
- Участники соглашаются, что «чистая» инференс-операция, без учёта затрат на обучение, может быть прибыльной: Сам Альтман, данные The Information и Epoch AI указывают на gross margin 50–60 %.
- Основные оговорки: в расчётах не учтены downtime, кэширование, спекулятивное декодирование, KV-cache, а также различия в эффективности между DeepSeek R1 и закрытыми моделями OpenAI/Anthropic.
- Некоторые стартапы (Cursor, Perplexity) уже страдают от отрицательной маржи из-за дорогих токенов, что подчеркивает разрыв между «оптовой» и «розничной» экономикой.
- Общий вывод: инференс в вакууме может быть прибыльным, но полная экономика включает обучение, idle-оборудование и кросс-субсидирование, поэтому точные цифры известны только самим компаниям.
Show HN: An ncurses CUDA-based fluid simulation
fluid-sims — коллекция симуляций жидкости от seanwevans.
Репозиторий публичный, доступен без авторизации.
Комментарии (6)
- Пользователи восторженно отреагировали на стиль Jos Stem и 3D-демо.
- @clbrmbr попросил сделать GPU-анимацию всего одной строки.
- @petermcneeley поделился примером realtime-флюида на WebGPU.
- @glouwbug задался вопросом, хватит ли CPU для уравнения Бюргерса.
- @dahart считает, что при низком разрешении и Navier–Stokes спокойно укладывается в CPU.
Dissecting the Apple M1 GPU, the end 🔥 Горячее 💬 Длинная дискуссия
В декабре 2020-го Хектор Мартин запустил Asahi Linux, а я, работая над Panfrost, лишь хотел подсказать. В итоге купил Mac mini и начал реверсить GPU. Через пару недель нарисовал треугольник, потом — компилятор шейдеров, а после сессии за несколько дней поднял OpenGL-драйвер.
Год улучшал драйвер, пока игры не пошли под macOS. Параллельно Asahi Lina писала kernel-драйвер; в декабре 2022-го у нас впервые заработала графика в Linux.
В 2023-м, заканчивая универ, я решил:
- довести M1-драйвер до ума;
- сделать полноценный OpenGL 4.6 и Vulkan;
- запустить Proton-игры.
Через месяц после выпуска — OpenGL 3.1, затем ES 3.1. Добавил эмуляцию geometry/tessellation, в январе 2024-го сдал OpenGL 4.6. Vulkan 1.3 прошёл за пару недель, 1.4 вышел в день публикации спецификации. Karol Herbst добавил OpenCL 3.0. Подключил sparse-текстуры — заработал Direct3D 12 через Proton.
Цели выполнены: драйверы в Mesa, игры идут, миф о несовместимости Vulkan с Apple развеян.
Комментарии (158)
- Alyssa за 5 лет с нуля довела Vulkan-драйвер для Apple Silicon до upstream, чем вдохновила всё open-source-сообщество.
- Учёба, работа в Collabora и «хобби»-проект — комментаторы поражаются, как она всё успевала.
- С августа она в Intel и, судя по резюме, занимается open-source-графикой Xe-HPG.
- Многие жалеют, что она уходит из Asahi, но считают переход новым вызовом, а не «уходом».
- Появились вопросы о будущем Asahi на M3/M4 и о том, почему Apple не мешает проекту, в отличие от других.
A bubble that knows it's a bubble
«Пузырь, который знает, что он пузырь»
Сэм Альтман, создатель нынешнего AI-хайпа, сам предупредил: «Инвесторы переоценены». Рынок отреагировал: Nvidia ‑3,5 %, Palantir ‑10 %. MIT: 95 % компаний не видят отдачи от генеративного ИИ. Apollo: оценки выше пиков дот-кома. Fed: >50 % capex США уходит в ИИ.
- Anthropic: $4,1 млрд при минимальных доходах.
- Character.AI: $1 млрд / 1,7 млн MAU ≈ $588 за пользователя.
- Inflection AI: $1,3 млрд → команда ушла в Microsoft, инвесторы остались с пустой оболочкой.
Рэй Далио: «Сейчас как в 1998–1999». Технологии реальны, спекуляции — нет. История повторяется: железные дороги 1840-х, радио 1920-х, дот-ком 1990-х. Перестройка → завтрашняя инфраструктура.
Железнодорожный пузырь 1840-х
3 года: 263 компании, 9 500 миль путей (≈ современная сеть Великобритании). Депозит 10 %, плечо 10×. К 1846 г. железные дороги — 71 % рынка акций. Повышение ставки Банка Англии → маржин-коллы → 85 % просадка, 200 банкротств. Но страна получила сеть, ставшую основой Индустриальной революции.
Дот-ком 1995–2000
NASDAQ +800 %, P/E 200 (норма 15–20). Метрика — «глаза», не деньги. WSJ и другие «столпы здравомыслия» поддались.
Комментарии (60)
- Участники спорят, является ли текущий AI-бум уникальным: многие указывают, что и в предыдущих пузырях (South Sea, dot-com) инвесторы прекрасно понимали иррациональность, но надеялись урвать прибыль.
- Основной риск — быстрое устаревание GPU-инфраструктуры (≈ 5 лет), в отличие от железных дорог или волоконной оптики, что ставит под сомнение «долговечность» остатков после лопания пузыря.
- Часть комментаторов подчёркивает, что даже «испарившийся» капитал оставляет физические активы: дата-центры, энергетику, знания и процессы, которые могут быть переиспользованы.
- Другие напоминают, что не все технологии после пузыря становятся массовыми: VR, NFT, блокчейн и 3D-печать поглотили миллиарды, но не изменили жизнь среднего человека.
- Наконец, спорят о «демократизации инвестиций»: розница пока не имеет доступа к дорогостоящим pre-IPO раундам, поэтому разрушения могут быть менее масштабными, чем в 2000-м.
Комментарии (22)
- Участники обсуждают, что описанный метод напоминает beam-search, но без прямого упоминания.
- Подчёркивается: высокая производительность (DeepConf-low) достигается за счёт 512 сэмплов, что требует ресурсов уровня enterprise и не подходит для локальных моделей.
- Автор блога подтверждает: текст сгенерирован LLM, затем вручную проверен; метод можно запустить и на слабом GPU через vLLM.
- Пользователи требуют явной маркировки «LLM output» и сравнивают подход с понижением температуры.
The issue of anti-cheat on Linux (2024) 💬 Длинная дискуссия
Почему античиты не работают в Linux
Доля геймеров на Linux растёт благодаря Steam Deck и надоедливым «фичам» Windows. Однако почти все сетевые хиты с античитом не запускаются или не подключаются к серверам: PUBG, Call of Duty, Rust, R6 Siege, EA FC 24, Destiny 2, Valorant, League of Legends и даже FACEIT/ESEA для CS2.
Как работают читы и античиты
Чит либо внешний процесс, читающий/писующий память игры, либо внедрённая DLL. ОС не даёт процессам трогать чужую память благодаря виртуальному адресному пространству: каждая программа «думает», что владеет всей ОЗУ, а процессор и ядро переводят виртуальные адреса в реальные.
Античиты борются с этим двумя путями:
- Пользовательский режим – сканируют память, читают файлы, ловят подозрительные потоки. Легко обойти, если у чита есть root-доступ.
- Ядро (kernel) – драйвер внутри ядра Windows имеет полный доступ к железу и памяти, может скрывать свои структуры и блокировать вмешательство. Vanguard, EAC, BattlEye и пр. работают именно так.
Почему это невозможно в Linux
- Linux — открытая система. Любой может собрать своё ядро, поставить патч, изменить ABI.
- Античиту нужен стабильный, неизменяемый и закрытый интерфейс ядра. В Linux этого нет: модуль, собранный под 6.9, не загрузится под 6.10, а пользователь может вообще отключить модульные загрузки.
- Даже если разработчик выпустит проприетарный модуль, сообщество его не примет: безопасность, GPL-лицензия, репутационные риски.
- Попытки «запечатать» Linux (secure boot + immutable образ) противоречат свободе системы и всё равно не гарантируют, что пользователь не пересоберёт ядро без проверок.
Что можно сделать
- Играть в поддерживаемые игры: Apex, Fortnite, CS2, Elden Ring и др. уже работают через Proton.
- Двойная загрузка или VFIO-виртуалка – запуск Windows в виртуальной машине с проброской GPU (сложно, но работает).
- Облачный гейминг – GeForce NOW, Xbox Cloud и т.д.
- Ждать – пока разработчики не придумают античит, который не требует закрытого ядра (маловероятно).
Вывод: пока Linux остаётся открытой системой, современные kernel-level античиты там жить не смогут.
Комментарии (226)
- Критики считают, что анти-чит на уровне ядра — это по сути rootkit, который подрывает безопасность и конфиденциальность.
- Многие предлагают альтернативы: доверительные сообщества, выделенные игровые машины, серверные проверки или облачные платформы.
- Подчеркивается, что Linux по дизайну даёт пользователю полный контроль, что делает невозможным эффективный, но инвазивный анти-чит.
- Некоторые игроки готовы пожертвовать безопасностью ради «честной» игры, но большинство участников обсуждения считают такой обмен неприемлемым.
How to Think About GPUs 🔥 Горячее
Что такое GPU
Современная ML-GPU (H100/B200) — это ~100–150 независимых вычислительных блоков (SM), каждый из которых содержит матричное ядро Tensor Core, векторные ALU (CUDA-ядра) и 256 КБ кэш SMEM. Все SM делят общий L2 и HBM3-память. SM разбит на 4 подблока; каждый подблок выполняет 32 SIMD-операции за такт. GPU-ядро менее мощное, чем TPU TensorCore, но их много, поэтому общая гибкость выше.
Память
H100: 80 ГБ HBM3, 3 ТБ/с. B200: 192 ГБ, 8 ТБ/с. L2 кэш 50 МБ (H100) / 128 МБ (B200). SMEM даёт 256 КБ на SM.
GPU vs TPU на уровне чипа
TPU: 1–2 больших MXU, жёсткая синхронизация, векторная часть слабее. GPU: 100+ мелких ядер, независимые SM, но общий L2 ограничивает масштаб. GPU лучше для разнородных задач, TPU — для чистых матмул.
Сеть внутри узла
Узел = 8 GPU + 2 CPU. GPU соединены NVLink/NVSwitch (900 ГБ/с между любыми двумя). CPU-GPU идут через PCIe 5.0 (64 ГБ/с). NVSwitch-кроссбар внутри узла = полносвязная сеть.
Сеть за пределами узла
InfiniBand HDR/NDR (до 400 Гб/с) или Ethernet RoCE. GPUDirect RDMA позволяет GPU читать/писать память соседнего узла без участия CPU.
Коллективные операции
Intra-node: NCCL использует NVLink; all-reduce 8×H100 за ~3 мкс.
Cross-node: кольцо IB + NVLink; latency ~10 мкс, bandwidth лимит IB.
Roofline-модель для LLM
- Data Parallelism: ограничен IB; эффективен при малых моделях.
- Tensor Parallelism: ограничен NVLink; лучше внутри узла.
- Expert/ Pipeline Parallelism: комбинируем; pipeline глубже → меньше bubble, но больше весов на каждом GPU.
- TLDR: держи параллелизм так, чтобы IB не стал bottleneck; используй NVLink для tensor-parallel, IB для data-parallel.
Итого
GPU — это масса мелких, независимых SM, связанных быстрым NVLink внутри узла и медленным IB между узлами. Для LLM выбирай параллелизм, который минимизирует IB-трафик и максимально использует NVLink.
Комментарии (107)
- Критика точности: документация местами неточна, особенно в определении «CUDA-core».
- Открытость и вендор-лок: ряд участников считают инвестиции в проприетарную экосистему NVIDIA рискованной ставкой.
- Ошибка в расчётах: Quiz 2 преувеличивает пропускную способность; реальные 3,2 ТБ/с ограничены портами NIC.
- Похвала и польза: серия всё же хорошо объясняет принципы параллелизма, применимые и к другим устройствам.
- Сравнение TPU и GPU: TPU проще масштабировать, но закрыт для продажи; GPU NVIDIA гибче, но сложнее в программировании.
- Дефицит официальных данных: NVIDIA не раскрывает полную архитектуру, поэтому полезные модели приходится собирать из сторонних источников.
Wan – Open-source alternative to VEO 3
Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2
- Масштабируемость — работает от локального GPU до кластеров.
- Качество — высокое разрешение, плавность, точность текста.
- Гибкость — обучение, дообучение, инференс через PyTorch.
- Форматы — MP4, GIF, WebM; выбор fps и разрешения.
- API & CLI — простой запуск:
wan2.2 generate --prompt "...". - Docker — готовый образ
wanvideo/wan2.2:latest. - Лицензия Apache 2.0, коммерческое использование разрешено.
Комментарии (31)
- Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
- Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
- Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
- Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
- Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.
ARM adds neural accelerators to GPUs
- Arm Neural Technology — первое в мире решение, встраивающее нейро-акселераторы в мобильные GPU Arm. С 2026 г. оно сокращает нагрузку на GPU до 50 % и открывает путь к ПК-качеству графики на смартфонах.
- Neural Super Sampling (NSS) — стартовая функция: апскейл 540p → 1080p за 4 мс на кадр.
- Открытый набор разработчика уже доступен: плагин Unreal Engine, эмулятор Vulkan, профайлеры, модели на GitHub и Hugging Face. Поддержка от Epic, Tencent, NetEase и др.
- Расширения Vulkan добавляют «Graph Pipeline» для вывода нейросетей прямо в рендер-процесс.
Комментарии (38)
- Участники обсуждают, как ИИ-апскейлинг (типа DLSS/FSR) позволит инди-студиям делать игры «АА-качества» из минимальной графики, высвобождая ресурсы для гейм-дизайна.
- ARM анонсировала «первую в отрасли» встроенную нейро-ускоряющую часть в GPU, но многие указывают, что NPU в SoC уже есть с 2017 г. (Kirin 970) и новизна, вероятно, в интеграции именно в GPU, а не рядом.
- Поддержка Vulkan-расширений вместо проприетарных API считается плюсом, но вызывает опасения «extension spaghetti».
- Скепсис вызывают сроки (IP анонсирована за два года до чипов) и маркетинговые формулировки «Arm как компания» vs «ARM как архитектура».
- Участники перечисляют три пути ускорения ИИ: GPU compute, tensor-cores, NPU; последние пока используются мало, кроме как для lock-in Microsoft ONNX.
PCIe 8.0 announced by the PCI-Sig will double throughput again 💬 Длинная дискуссия
PCI-SIG анонсировала PCIe 8.0
- Пропускная способность вдвое выше PCIe 7.0: до 256 ГТ/с на линию.
- Технология: PAM4, 32 ГТ/с, 0,5 В амплитуда, < 1 Вт/лейн энергопотребление.
- Обратная совместимость с предыдущими поколениями.
- Спецификация выйдет в 2027 г., первые продукты — 2028–2029 гг.
- Цели: ИИ-акселераторы, HPC, NVMe-накопители, 800 Гбит/с сети.
Комментарии (188)
- Кто-то предлагает «перевернуть» архитектуру: пусть GPU-PCB станет материнской платой, а CPU с памятью встаёт в PCIe-слот.
- Обсуждают, что PCIe-спецификация всегда на три поколения впереди реальных продуктов: сейчас в работе уже Gen 8.
- Пользователи жалуются на нехватку линий PCIe в десктопах и мечтают о GPU-сокете с собственными слотами RAM.
- EE и другие специалисты считают это скорее проблемой экосистемы и совместимости, чем чисто инженерной.
- Упоминают, что в дата-центрах (DGX, DPU, NVMe-«без-сервера») похожая идея уже реализована.
Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally? 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (306)
- У OpenAI десятки миллиардов долларов на кластеры GPU (по $20–40 тыс. за карту) и инфраструктуру, чего нет у обычного пользователя.
- Ключевая «фишка» — массовое батчирование запросов: одновременная обработка тысяч пользователей позволяет загружать видеопамять и вычислительные блоки почти на 100 %, тогда как дома GPU простаивает.
- Используются Mixture-of-Experts, спекулятивное декодирование, конвейерная разбивка модели по GPU и прочие оптимизации, снижающие затраты на одного пользователя.
- Большинство пользователей активны лишь доли процента времени, поэтому общая нагрузка оказывается меньше, чем кажется по 700 млн «weekly users».
- Всё это — классический эффект экономии масштаба: высокие фиксированные затраты и почти нулевые переменные на одного юзера делают запуск GPT-4 локально невыгодным.
Writing a Rust GPU kernel driver: a brief introduction on how GPU drivers work 🔥 Горячее
Это вторая часть серии о разработке Tyr — современного GPU‑драйвера на Rust для ядра Linux с поддержкой Arm Mali на CSF.
Разберем, как работают GPU‑драйверы, на примере VkCube — простого приложения на Vulkan, рисующего вращающийся куб. Простота сцены помогает понять путь данных и команд от приложения к GPU.
UMD и KMD
- UMD (usermode) реализует API вроде Vulkan/OpenGL/OpenCL и преобразует команды приложений в низкоуровневые команды для GPU. В нашем случае это panvk из Mesa.
- KMD (kernel mode) соединяет UMD с железом: инициализирует устройство, управляет памятью, очередями, планированием и уведомлениями. В нашем случае это Tyr, нацеленный попасть в основное дерево Linux.
Что делает UMD
- Подготавливает данные: геометрию, текстуры, машинный код шейдеров, матрицы трансформаций.
- Просит KMD разместить их в памяти GPU, создает VkCommandBuffer с командами отрисовки, настраивает состояние конвейера, указывает, куда писать результат, и как получать сигнал о завершении.
Про шейдеры
- Это полноценные программы на GPU. Для VkCube им нужны хотя бы геометрия, цвета и матрица вращения, чтобы расположить и раскрасить куб и крутить его.
Что делает KMD
- Выделяет и отображает память, изолируя процессы в отдельных контекстах/VM.
- Принимает работу от UMD, ставит в аппаратные очереди, отслеживает зависимости и завершение.
- Планирует выполнение на массово параллельном, асинхронном железе, соблюдая порядок и справедливое распределение ресурса между клиентами.
- Инициализирует устройство: тактирование, питание, стартовые процедуры; обеспечивает совместный и честный доступ приложений к GPU.
Ключевой вывод
- Основная сложность — в UMD, который переводит высокоуровневые API в команды GPU. Но KMD обязан предоставить надежные примитивы: память, очереди, синхронизацию, планирование и разделение ресурсов, чтобы UMD было реально реализовать.
Интерфейс драйвера
- На основе этих задач KMD экспонирует минимальный набор операций: запрос сведений об устройстве, создание/уничтожение VM, привязка/отвязка памяти к VM, получение состояния VM, отправка работ в очереди и механизмы уведомлений — тот же API, что у C‑драйвера Panthor для того же железа.
Комментарии (34)
- Обсуждение статьи о драйвере GPU: часть читателей хвалит материал, но считает его слишком коротким и ждёт продолжения/второй части.
- Уточняют, что речь идёт о драйвере panthor для Mali CSF (на RK3588), а не panfrost; один из комментаторов отмечал баги в Firefox на RK3588, ему ответили про соответствующий драйвер.
- Спор о фокусе: одни подчёркивают важность того, что это один из первых GPU-драйверов Linux на Rust; другие критикуют кликбейт заголовок и считают, что нужно акцентировать Mali CSF, а не Rust.
- Техническая дискуссия: вопрос о целесообразности uring_cmd вместо ioctl; ответы поясняют, что из-за природы асинхронных очередей GPU дополнительная CPU-очередь мало что даст, а интерфейс драйвера следует ожиданиям Mesa.
- Отмечают, что текущая часть охватывает в основном границу пользователь/ядро и управление очередями/буферами; «основное действие» — выполнение команд GPU — ожидается в следующих частях.
- Дополнительно подчёркивают сложность современных GPU-драйверов и их объём в ядре Linux, что оправдывает выбранные подходы и терминологию.