Тег: #nvidia — Hacker News Digest

Show HN: Play Pokémon to unlock your Wayland session (github.com)

wlgblock — экран-блокировка в стиле Game Boy для Wayland.
Проект AdoPi: простой скрипт на Bash, который запускает «игру»-заставку и требует пароль для разблокировки.

Зависимости: swaylock, grim, slurp, wl-clipboard, imagemagick, fzf, bash.
Установка: клонировать репозиторий, выполнить make install.
Использование: wlgblock или горячая клавиша в Sway/i3.

Скрипт делает снимок экрана, накладывает пиксель-фильтр «Game Boy», запускает swaylock с этим изображением и ожидает ввода пароля.

by anajimi • 10 августа 2025 г. в 12:15 • 102 points

Оригинал • HN

#bash #wayland #sway #i3 #nvidia #amd #kde #github

Комментарии (41)

Пользователи радуются, что проект-игра на Wayland показывает, что экосистема уже способна на «тяжёлую» кастомизацию и работает лучше, чем споры последних пяти лет.
Многие удивлены, что «игра-скринсейвер» появилась раньше обычного нормального screensaver'а для Wayland.
Скептик признал: блокировка экрана в Wayland действительно работает лучше и логичнее, чем в X.
Разработчик anajimi уже обещает попробовать сделать полноценный screensaver на ext-session-lock.
В KDE 82 % сессий уже Wayland; Sway и labwc активно используются, но NVIDIA всё ещё вызывает проблемы — «переходи на AMD».

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:
1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
Методика
- Одинаковые образы Docker/Podman на обеих платформах.
- Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
- Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
- Повторять 3×, усреднять, выводить ±σ.
Автоматизация
- Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
- Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
- Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
Сравнение
- Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
- Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

Оригинал • HN

#ollama #docker #podman #ansible #prometheus #grafana #llama.cpp #rocm #linux #nvidia

Комментарии (57)

AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.

How AI conquered the US economy: A visual FAQ (derekthompson.org) 🔥 Горячее 💬 Длинная дискуссия

Американская экономика раскололась: бурный ИИ-сектор и вялая потребительская часть.

В статистике: траты на ИИ в прошлом квартале росли быстрее потребительских расходов; без ИИ рост ВВП был бы слабым.
В акциях: за два года около 60% прироста рынка дали компании, связанные с ИИ (Microsoft, Nvidia, Meta); без этого бумa доходность была бы посредственной.
В бизнес-данных: по Stripe, «ИИ-компании» лидируют по росту выручки, опережая остальные группы.

Что это за бум и откуда деньги? ИИ — это чипы, серверы и дата-центры, огромная электроэнергия, сети и охлаждение. Это крайне дорого. За полгода Meta, Google, Microsoft и Amazon вложили $100–200 млрд в чипы и инфраструктуру. Крупнейшие техгиганты строят на рекордных скоростях — крупнейший инфраструктурный проект со времен ранней компьютерной эры или даже железнодорожного бума.

JP Morgan отмечает: доля Nvidia в совокупных капзатратах компаний может стать максимальной со времен пиковой выручки IBM в 1969. По расчетам Пола Кедроски, капвложения в ИИ как доля ВВП уже превысили дотком-уровни и приближаются к масштабам «позолоченного века» железных дорог.

Этот всплеск финансируется беспрецедентной прибылью лидеров технологий. Их доля свободного денежного потока — рекордная со Второй мировой. Сильные действующие модели (реклама Meta, поисковая реклама Google и пр.) генерируют «горы» наличности, позволяя ежегодно направлять сотни миллиардов на ИИ-НИОКР и инфраструктуру.

by rbanffy • 07 августа 2025 г. в 10:12 • 267 points

Оригинал • HN

#llm #economy #microsoft #nvidia #meta #amazon #cloud-computing #investment

Комментарии (213)

Участники спорят, действительно ли ИИ «поддерживает» весь рост экономики США или просто концентрирует капитал в руках 10–15 гигантов.
Многие сравнивают нынешний бум с «железнодорожной лихорадкой» XIX века и дот-комом 1999–2000 годов: возможен и прорыв, и взрыв пузыря.
Поднимается вопрос: если ИИ так продуктивен, почему прибыли растут у «продавцов лопат» (Nvidia, Microsoft), а не у клиентов из S&P 490.
Часть комментаторов считает, что без ИИ деньги всё равно бы не пошли в реальную экономику, а осели бы в выкупе акций или «загородных REIT-ах».
Скептики предупреждают: рекордные capex на дата-центры могут обернуться масштабным спадом, если спрос на ИИ-сервисы замедлится.

Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs (baseten.co) 💬 Длинная дискуссия

В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.
Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.
Работы включали:
- Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
- Совместимость с архитектурами Hopper и Blackwell.
- Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
- Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.

Шаг 1: Первый инференс

Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.

Шаг 2: Исправление багов совместимости

Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.

Шаг 3: Оптимизация конфигурации

Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.

by philipkiely • 07 августа 2025 г. в 02:28 • 217 points

Оригинал • HN

#gpt-oss-120b #nvidia #tensorrt-llm #vllm #sglang #hopper #blackwell #nvidia-dynamo #llama #ollama

Комментарии (151)

Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.