Hacker News Digest

Тег: #rocm

Постов: 4

Evaluating the Infinity Cache in AMD Strix Halo (chipsandcheese.com)

AMD Strix Halo — флагманский мобильный чип AMD из серии Ryzen AI MAX, сочетающий 16 ядер Zen 5 с мощной iGPU на 20 RDNA 3.5 Workgroup Processors. Особенностью чипа является 32 МБ Infinity Cache (MALL), который работает с 256-битным интерфейсом LPDDR5X-8000. Эта технология, представленная ещё в RDNA2, ранее была сложно оценить из-за ограниченных инструментов мониторинга производительности AMD, которые не предоставляли данных выше L2 кэша.

Strix Halo уникален тем, что предоставляет доступный программный счётчик производительности DATA_BW, позволяющий отслеживать трафик на различных уровнях. Автору, благодаря предоставленному ASUS ROG Flow Z13, удалось определить идентификаторы экземпляров Infinity Fabric, которые AMD не документировала. Сравнение трафика на уровнях Coherent Stations (CS) и Unified Memory Controllers (UMC) позволил создать методику оценки эффективности Infinity Cache — разница между этими показателями служит индикатором хитов в кэш-памяти.

by zdw • 22 октября 2025 г. в 04:20 • 130 points

ОригиналHN

#amd#ryzen#zen-5#rdna-3.5#infinity-cache#cuda#rocm#nvidia

Комментарии (54)

  • AMD представляет Strix Halo как игровой чип, но в дискуссии подчеркивается, что у него нет поддержки CUDA и ROCm, что делает его непригодным для локального ИИ.
  • Пользователи жалуются на отсутствие документации, отсутствие поддержки и отсутствие программного обеспечения, что делает его непригодным для разработки ИИ.
  • В то же время, AMD продолжает позиционировать его как "первый процессор для ИИ ПК", хотя в реальности он не может запускать большинство моделей из-за отсутствия CUDA и ROCm.
  • Обсуждение также поднимает вопрос о том, что AMD не предоставляет никаких инструментов для разработки ИИ, в отличие от Nvidia, которая предоставляет CUDA и cuDNN.

Windows ML is generally available (blogs.windows.com)

Windows ML теперь общедоступна, позволяя разработчикам внедрять локальный ИИ на устройствах с Windows. Это решение поддерживает аппаратное ускорение через DirectML, обеспечивая высокую производительность на CPU, GPU и NPU. Разработчики могут использовать предварительно обученные модели или создавать собственные, интегрируя их в приложения без облачной зависимости.

Ключевые преимущества включают снижение задержек, повышение конфиденциальности данных и работу в офлайн-режиме. Windows ML совместима с популярными фреймворками, такими как ONNX, и упрощает развёртывание на миллиардах устройств. Это открывает новые возможности для сценариев вроде обработки изображений, распознавания речи и генеративного ИИ прямо на устройстве пользователя.

by sorenjan • 25 сентября 2025 г. в 20:11 • 97 points

ОригиналHN

#windows-ml#directml#onnx#llm#machine-learning#amd#rocm#migraphx#vitis#ollama

Комментарии (28)

  • Критика подхода Ollama к веб-поиску и его влияния на open-source, в сравнении с глубокой интеграцией Windows ML в экосистему Microsoft.
  • Обсуждение технических проблем с бэкендами AMD (ROCm, MIGraphX, Vitis) и надежд на улучшение поддержки оборудования в Windows ML.
  • Вопросы о приватности данных при использовании Windows ML и сравнение с локальным запуском моделей через Ollama.
  • Сравнение Windows ML с решением Apple для доступа к локальным моделям и обсуждение его как абстракции для аппаратного обеспечения (аналог DirectX для ML).
  • Обсуждение поддержки ONNX как стандарта и проблем с совместимостью пользовательских слоев моделей (например, flash attention) в Windows ML.

AMD Open Source Driver for Vulkan project is discontinued (github.com)

Проект AMDVLK с открытым исходным кодом прекращён.

by haunter • 17 сентября 2025 г. в 00:31 • 129 points

ОригиналHN

#vulkan#amdvlk#radv#linux#rocm#open-source#github

Комментарии (39)

  • AMD прекращает разработку открытого драйвера AMDVLK и переходит к полной поддержке стороннего драйвера RADV для Vulkan на Linux.
  • Сообщество воспринимает это решение как позитивное и долгожданное, поскольку RADV уже давно популярнее у пользователей.
  • Высказываются мнения, что полный переход на открытый код всего стека драйверов был бы выгоден для производителей железа.
  • Поднимается вопрос о будущем Vulkan-драйвера AMD для Windows и возможности использования там RADV.
  • Участники обсуждают сложности открытия кода из-за коммерческой тайны и патентов в проприетарных компонентах.
  • Обсуждается влияние решения на развитие ROCm и совместимость с открытым стеком.
  • Высказываются опасения о возможном негативном влиянии разработчиков AMDVLK на код RADV.

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

  • Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:

    1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
    2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
  • Методика

    • Одинаковые образы Docker/Podman на обеих платформах.
    • Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
    • Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
    • Повторять 3×, усреднять, выводить ±σ.
  • Автоматизация

    • Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
    • Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
    • Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
  • Сравнение

    • Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
    • Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

ОригиналHN

#ollama#docker#podman#ansible#prometheus#grafana#llama.cpp#rocm#linux#nvidia

Комментарии (57)

  • AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
  • Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
  • ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
  • Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
  • Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.