Show HN: Play Pokémon to unlock your Wayland session
wlgblock — экран-блокировка в стиле Game Boy для Wayland.
Проект AdoPi: простой скрипт на Bash, который запускает «игру»-заставку и требует пароль для разблокировки.
- Зависимости:
swaylock
,grim
,slurp
,wl-clipboard
,imagemagick
,fzf
,bash
. - Установка: клонировать репозиторий, выполнить
make install
. - Использование:
wlgblock
или горячая клавиша в Sway/i3.
Скрипт делает снимок экрана, накладывает пиксель-фильтр «Game Boy», запускает swaylock
с этим изображением и ожидает ввода пароля.
Комментарии (41)
- Пользователи радуются, что проект-игра на Wayland показывает, что экосистема уже способна на «тяжёлую» кастомизацию и работает лучше, чем споры последних пяти лет.
- Многие удивлены, что «игра-скринсейвер» появилась раньше обычного нормального screensaver'а для Wayland.
- Скептик признал: блокировка экрана в Wayland действительно работает лучше и логичнее, чем в X.
- Разработчик anajimi уже обещает попробовать сделать полноценный screensaver на ext-session-lock.
- В KDE 82 % сессий уже Wayland; Sway и labwc активно используются, но NVIDIA всё ещё вызывает проблемы — «переходи на AMD».
Benchmark Framework Desktop Mainboard and 4-node cluster
-
Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:
- настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
- кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
-
Методика
- Одинаковые образы Docker/Podman на обеих платформах.
- Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
- Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
- Повторять 3×, усреднять, выводить ±σ.
-
Автоматизация
- Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
- Скрипт
run-suite.sh
последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода. - Результаты пишутся в CSV и публикуются в PR как
results-<platform>-<date>.md
.
-
Сравнение
- Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
- Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.
Комментарии (57)
- AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
- Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
- ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
- Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
- Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.
How AI conquered the US economy: A visual FAQ 🔥 Горячее 💬 Длинная дискуссия
Американская экономика раскололась: бурный ИИ-сектор и вялая потребительская часть.
- В статистике: траты на ИИ в прошлом квартале росли быстрее потребительских расходов; без ИИ рост ВВП был бы слабым.
- В акциях: за два года около 60% прироста рынка дали компании, связанные с ИИ (Microsoft, Nvidia, Meta); без этого бумa доходность была бы посредственной.
- В бизнес-данных: по Stripe, «ИИ-компании» лидируют по росту выручки, опережая остальные группы.
Что это за бум и откуда деньги? ИИ — это чипы, серверы и дата-центры, огромная электроэнергия, сети и охлаждение. Это крайне дорого. За полгода Meta, Google, Microsoft и Amazon вложили $100–200 млрд в чипы и инфраструктуру. Крупнейшие техгиганты строят на рекордных скоростях — крупнейший инфраструктурный проект со времен ранней компьютерной эры или даже железнодорожного бума.
JP Morgan отмечает: доля Nvidia в совокупных капзатратах компаний может стать максимальной со времен пиковой выручки IBM в 1969. По расчетам Пола Кедроски, капвложения в ИИ как доля ВВП уже превысили дотком-уровни и приближаются к масштабам «позолоченного века» железных дорог.
Этот всплеск финансируется беспрецедентной прибылью лидеров технологий. Их доля свободного денежного потока — рекордная со Второй мировой. Сильные действующие модели (реклама Meta, поисковая реклама Google и пр.) генерируют «горы» наличности, позволяя ежегодно направлять сотни миллиардов на ИИ-НИОКР и инфраструктуру.
Комментарии (213)
- Участники спорят, действительно ли ИИ «поддерживает» весь рост экономики США или просто концентрирует капитал в руках 10–15 гигантов.
- Многие сравнивают нынешний бум с «железнодорожной лихорадкой» XIX века и дот-комом 1999–2000 годов: возможен и прорыв, и взрыв пузыря.
- Поднимается вопрос: если ИИ так продуктивен, почему прибыли растут у «продавцов лопат» (Nvidia, Microsoft), а не у клиентов из S&P 490.
- Часть комментаторов считает, что без ИИ деньги всё равно бы не пошли в реальную экономику, а осели бы в выкупе акций или «загородных REIT-ах».
- Скептики предупреждают: рекордные capex на дата-центры могут обернуться масштабным спадом, если спрос на ИИ-сервисы замедлится.
Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs 💬 Длинная дискуссия
-
В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.
-
Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.
-
Работы включали:
- Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
- Совместимость с архитектурами Hopper и Blackwell.
- Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
- Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.
Шаг 1: Первый инференс
- Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
- Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
- Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
- Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.
Шаг 2: Исправление багов совместимости
- Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
- Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
- Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.
Шаг 3: Оптимизация конфигурации
- Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
- Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
- Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.
Комментарии (151)
- Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
- Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
- TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
- Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
- Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
- Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
- Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.