A beginner's guide to deploying LLMs with AMD on Windows using PyTorch
AMD и GPUOpen опубликовали практическое руководство, как запустить LLM на Windows с GPU AMD и PyTorch. Самое важное — это не требует ROCm, а использует DirectML, что делает процесс доступным для большинства геймерских видеокарт Radeon. Поддерживаются модели Llama 3.2, Mistral и Gemma, а также Q4 и FP16 квантизация. Подготовка включает установку ROCm и PyTorch, но ROCm не используется; вместо этого используется DirectML. Процесс включает скачивание модели, конвертацию в GGUF с помощью llama.cpp, и запуск через веб-интерфейс Gradio. Важно, что весь процесс происходит на Windows без виртуализации или WSL2.
Комментарии (26)
I have a philosophy for which I have mixed feelings because I like it in principle despite it making me worse off in some other ways: Devs should punish companies that clearly don't give a shit about them. When I see AMD, I think of a firm that heavily prioritized their B2B busin
Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.
Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.
Комментарии (10)
- Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
- Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
- Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
- Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
- Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.
Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs
LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.
Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.
Комментарии (15)
- Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
- Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
- Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
- Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
- Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.
AI tools are making the world look weird 💬 Длинная дискуссия
Исследования в области поведенческих наук часто страдают от системной ошибки: они опираются на данные, собранные в западных, образованных, индустриальных, богатых и демократических обществах (WEIRD), а затем применяют выводы ко всему человечеству. Это приводит к искажённым результатам, поскольку такие популяции составляют лишь малую часть мирового населения и могут демонстрировать нетипичные психологические и социальные паттерны.
Например, многие классические теории о принятии решений или морали основаны на экспериментах с студентами американских университетов, чьи реакции часто не совпадают с поведением людей из других культур. Это ограничивает применимость исследований в глобальном масштабе и подрывает их ценность для бизнеса или политики, ориентированных на разнообразные аудитории.
Осознание этой проблемы — первый шаг к более инклюзивной и точной науке.
Комментарии (169)
- Обсуждается культурная предвзятость ИИ (особенно ChatGPT), который демонстрирует сильное смещение в сторону западных, особенно американских, ценностей из-за преобладания англоязычных данных в обучении.
- Участники отмечают, что исходные данные для обучения ИИ (например, с Reddit) перекошены в сторону взглядов западной, образованной, индустриализированной, богатой и демократической (WEIRD) аудитории, что ограничивает способность ИИ отражать глобальное разнообразие.
- Поднимается вопрос, могут ли ИИ, обученные на других языках или данных (например, DeepSeek, Mistral), или использование специальных промптов снизить этот эффект и лучше отражать другие культуры.
- Критикуется методология исследования, лежащего в основе статьи, за отсутствие деталей и возможную нерепрезентативность, а также обоснованность некоторых антропологических claims в рекомендованной книге.
- Обсуждается, является ли проблема inherent ограничением архитектуры ИИ или же её можно смягчить за счёт более разнообразных данных и специализированного обучения для разных культурных контекстов.
Mistral raises 1.7B€, partners with ASML 🔥 Горячее 💬 Длинная дискуссия
ASML и Mistral AI заключили стратегическое партнёрство
ASML, мировой лидер в области литографического оборудования, и Mistral AI, европейская компания по разработке ИИ, объединят усилия для ускорения инноваций в производстве полупроводников. Сотрудничество сфокусировано на применении ИИ к оптимизации сложных процессов микролитографии и повышению точности систем ASML.
Комментарии (406)
- ASML вложил 1,3 млрд € в раунд Mistral на 1,7 млрд €; для компании с выручкой 28 млрд € это крупная, но не критичная ставка.
- Большинство участников не видит технологического синерджиза: ASML делает фотолитографию, Mistral — LLM, и заказчики ASML уже покупают всё, что можно произвести.
- Инвестицию чаще объясняют политикой: ЕС хочет «своего» игрока в ИИ, а ASML — европейского союзника и лояльность Франции.
- Сомнения в Mistral: отстают по моделям, нет уникального преимущества, бывшие сотрудники говорят о слабом внедрении ИИ внутри самой ASML.
- Оптимисты надеются, что деньги и господдержка помогут Mistral повторить прорыв вроде DeepSeek, но рынок считает раунд «европейским GoFundMe» на фоне десятков миллиардов у US/China-игроков.
Mistral Integration Improved in Llama.cpp
- Добавлена поддержка моделей Mistral-Small-3.1-24B-Instruct-2503 и Mistral-Small-24B-Instruct-2501
- Улучшена работа с Mamba-2 и Sliding Window Attention
- Новые правила конвертации:
convert-hf-to-gguf.pyтеперь корректно обрабатываетsliding_window,mamba2,attention_bias,tie_word_embeddings - Обновлён
llama_model_loaderиllama_model: добавлены поляmamba2иsliding_window, упрощена логика KV-cache - Поддержка
mamba2вllama_contextиllama_decode - Удалены устаревшие
llama_modelиllama_vocab - Добавлены тесты
test-mistral.pyиtest-mistral-vision.py
Комментарии (11)
- Mistral предлагает mistral-common как официальный токенизатор, но пока только через Python-библиотеку и временный REST-обвязанный FastAPI.
- Сообщество жалуется: «cpp-бинарь, зависящий от Python-сервера — временное и грустное решение», ждут нативный C++ порт.
- Пользователи расстроены, что Mistral, выпуская веса, не сразу поддерживает llama.cpp, на котором держится большинство «домашних» запусков.
- Некоторые замечают, что llama.cpp и так тянет Python для шаблонов, но это не отменяет желания увидеть полноценную C++ реализацию.
- Сторонники Mistral отвечают: компания маленькая, пока не ясно, какие именно инференс-фреймворки поддерживать, зато открыли собственный mistral-inference.