Тег: #rocm — Hacker News Digest

Evaluating the Infinity Cache in AMD Strix Halo (chipsandcheese.com)

AMD Strix Halo — флагманский мобильный чип AMD из серии Ryzen AI MAX, сочетающий 16 ядер Zen 5 с мощной iGPU на 20 RDNA 3.5 Workgroup Processors. Особенностью чипа является 32 МБ Infinity Cache (MALL), который работает с 256-битным интерфейсом LPDDR5X-8000. Эта технология, представленная ещё в RDNA2, ранее была сложно оценить из-за ограниченных инструментов мониторинга производительности AMD, которые не предоставляли данных выше L2 кэша.

Strix Halo уникален тем, что предоставляет доступный программный счётчик производительности DATA_BW, позволяющий отслеживать трафик на различных уровнях. Автору, благодаря предоставленному ASUS ROG Flow Z13, удалось определить идентификаторы экземпляров Infinity Fabric, которые AMD не документировала. Сравнение трафика на уровнях Coherent Stations (CS) и Unified Memory Controllers (UMC) позволил создать методику оценки эффективности Infinity Cache — разница между этими показателями служит индикатором хитов в кэш-памяти.

by zdw • 22 октября 2025 г. в 04:20 • 130 points

Оригинал • HN

#amd #ryzen #zen-5 #rdna-3.5 #infinity-cache #cuda #rocm #nvidia

Комментарии (54)

AMD представляет Strix Halo как игровой чип, но в дискуссии подчеркивается, что у него нет поддержки CUDA и ROCm, что делает его непригодным для локального ИИ.
Пользователи жалуются на отсутствие документации, отсутствие поддержки и отсутствие программного обеспечения, что делает его непригодным для разработки ИИ.
В то же время, AMD продолжает позиционировать его как "первый процессор для ИИ ПК", хотя в реальности он не может запускать большинство моделей из-за отсутствия CUDA и ROCm.
Обсуждение также поднимает вопрос о том, что AMD не предоставляет никаких инструментов для разработки ИИ, в отличие от Nvidia, которая предоставляет CUDA и cuDNN.

Windows ML is generally available (blogs.windows.com)

Windows ML теперь общедоступна, позволяя разработчикам внедрять локальный ИИ на устройствах с Windows. Это решение поддерживает аппаратное ускорение через DirectML, обеспечивая высокую производительность на CPU, GPU и NPU. Разработчики могут использовать предварительно обученные модели или создавать собственные, интегрируя их в приложения без облачной зависимости.

Ключевые преимущества включают снижение задержек, повышение конфиденциальности данных и работу в офлайн-режиме. Windows ML совместима с популярными фреймворками, такими как ONNX, и упрощает развёртывание на миллиардах устройств. Это открывает новые возможности для сценариев вроде обработки изображений, распознавания речи и генеративного ИИ прямо на устройстве пользователя.

by sorenjan • 25 сентября 2025 г. в 20:11 • 97 points

Оригинал • HN

#windows-ml #directml #onnx #llm #machine-learning #amd #rocm #migraphx #vitis #ollama

Комментарии (28)

Критика подхода Ollama к веб-поиску и его влияния на open-source, в сравнении с глубокой интеграцией Windows ML в экосистему Microsoft.
Обсуждение технических проблем с бэкендами AMD (ROCm, MIGraphX, Vitis) и надежд на улучшение поддержки оборудования в Windows ML.
Вопросы о приватности данных при использовании Windows ML и сравнение с локальным запуском моделей через Ollama.
Сравнение Windows ML с решением Apple для доступа к локальным моделям и обсуждение его как абстракции для аппаратного обеспечения (аналог DirectX для ML).
Обсуждение поддержки ONNX как стандарта и проблем с совместимостью пользовательских слоев моделей (например, flash attention) в Windows ML.

AMD Open Source Driver for Vulkan project is discontinued (github.com)

Проект AMDVLK с открытым исходным кодом прекращён.

by haunter • 17 сентября 2025 г. в 00:31 • 129 points

Оригинал • HN

#vulkan #amdvlk #radv #linux #rocm #open-source #github

Комментарии (39)

AMD прекращает разработку открытого драйвера AMDVLK и переходит к полной поддержке стороннего драйвера RADV для Vulkan на Linux.
Сообщество воспринимает это решение как позитивное и долгожданное, поскольку RADV уже давно популярнее у пользователей.
Высказываются мнения, что полный переход на открытый код всего стека драйверов был бы выгоден для производителей железа.
Поднимается вопрос о будущем Vulkan-драйвера AMD для Windows и возможности использования там RADV.
Участники обсуждают сложности открытия кода из-за коммерческой тайны и патентов в проприетарных компонентах.
Обсуждается влияние решения на развитие ROCm и совместимость с открытым стеком.
Высказываются опасения о возможном негативном влиянии разработчиков AMDVLK на код RADV.

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:
1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
Методика
- Одинаковые образы Docker/Podman на обеих платформах.
- Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
- Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
- Повторять 3×, усреднять, выводить ±σ.
Автоматизация
- Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
- Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
- Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
Сравнение
- Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
- Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

Оригинал • HN

#ollama #docker #podman #ansible #prometheus #grafana #llama.cpp #rocm #linux #nvidia

Комментарии (57)

AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.