A beginner's guide to deploying LLMs with AMD on Windows using PyTorch
AMD и GPUOpen опубликовали практическое руководство, как запустить LLM на Windows с GPU AMD и PyTorch. Самое важное — это не требует ROCm, а использует DirectML, что делает процесс доступным для большинства геймерских видеокарт Radeon. Поддерживаются модели Llama 3.2, Mistral и Gemma, а также Q4 и FP16 квантизация. Подготовка включает установку ROCm и PyTorch, но ROCm не используется; вместо этого используется DirectML. Процесс включает скачивание модели, конвертацию в GGUF с помощью llama.cpp, и запуск через веб-интерфейс Gradio. Важно, что весь процесс происходит на Windows без виртуализации или WSL2.
Комментарии (26)
I have a philosophy for which I have mixed feelings because I like it in principle despite it making me worse off in some other ways: Devs should punish companies that clearly don't give a shit about them. When I see AMD, I think of a firm that heavily prioritized their B2B busin
Windows ML is generally available
Windows ML теперь общедоступна, позволяя разработчикам внедрять локальный ИИ на устройствах с Windows. Это решение поддерживает аппаратное ускорение через DirectML, обеспечивая высокую производительность на CPU, GPU и NPU. Разработчики могут использовать предварительно обученные модели или создавать собственные, интегрируя их в приложения без облачной зависимости.
Ключевые преимущества включают снижение задержек, повышение конфиденциальности данных и работу в офлайн-режиме. Windows ML совместима с популярными фреймворками, такими как ONNX, и упрощает развёртывание на миллиардах устройств. Это открывает новые возможности для сценариев вроде обработки изображений, распознавания речи и генеративного ИИ прямо на устройстве пользователя.
Комментарии (28)
- Критика подхода Ollama к веб-поиску и его влияния на open-source, в сравнении с глубокой интеграцией Windows ML в экосистему Microsoft.
- Обсуждение технических проблем с бэкендами AMD (ROCm, MIGraphX, Vitis) и надежд на улучшение поддержки оборудования в Windows ML.
- Вопросы о приватности данных при использовании Windows ML и сравнение с локальным запуском моделей через Ollama.
- Сравнение Windows ML с решением Apple для доступа к локальным моделям и обсуждение его как абстракции для аппаратного обеспечения (аналог DirectX для ML).
- Обсуждение поддержки ONNX как стандарта и проблем с совместимостью пользовательских слоев моделей (например, flash attention) в Windows ML.