Hacker News Digest

Тег: #ollama

Постов: 18

New coding models and integrations (ollama.com)

Ollama выпустила новые мощные модели для генерации и анализа кода, а также обновила интеграции с популярными средами разработки. GLM-4.6 и Qwen3-Coder-480B теперь доступны как в облаке, так и локально, поддерживая до 300 ГБ видеопамяти. Эти модели могут использоваться напрямую через API Ollama, а также интегрированы с VS Code, Zed и Droid через простые настройки в интерфейсе. Например, для VS Code достаточно указать модель в настройках Copilot, а для Droid — через конфигурационный файл. Новые модели особенно эффективны для генерации и рефакторинга кода, включая создание полных приложений по текстовому описанию. Пример: GLM-4.6 смог создать игру типа "Dino" в одном HTML-файле по текстовому запросу.

by meetpateltech • 16 октября 2025 г. в 05:46 • 201 points

ОригиналHN

#ollama#glm-4.6#qwen3-coder-480b#api#vscode#zed#droid#html

Комментарии (63)

  • Пользователи обсуждают использование модели GLM-4.6, её доступность и стоимость, включая обсуждение её использования через различные сервисы и API.
  • Обсуждается использование локальных моделей, включая проблемы с производительностью и ограничениями на оборудовании.
  • Участники обсуждают использование Ollama и их моделей, включая обсуждение их доступности и стоимости.
  • Обсуждается использование различных моделей для кодирования, включая их сравнение и стоимость.
  • Обсуждается использование и стоимость различных облачных и локальных решений, включая их сравнение и стоимость.

Cursor 1.7 (cursor.com)

В Cursor появились три ключевые функции для улучшения работы с ИИ-агентом. Автодополнение теперь предлагает подсказки на основе недавних изменений, ускоряя написание промптов. Хуки (в бета-версии) позволяют настраивать поведение агента через кастомные скрипты — например, для аудита использования, блокировки команд или скрытия секретов. Командные правила дают возможность устанавливать глобальные настройки через дашборд, обеспечивая единообразие во всех проектах, включая интеграцию с Bugbot.

Дополнительные улучшения: делиться промптами через deeplinks для документации и рабочих процессов, мониторить агентов из менюбара и работать с изображениями напрямую из рабочей области. Ранее поддержка была только для вставленных изображений. Эти обновления повышают гибкость и контроль над ИИ-инструментами в командной среде.

by mustaphah • 01 октября 2025 г. в 13:51 • 115 points

ОригиналHN

#cursor#llm#autocompletion#cli#vscode#copilot#ollama#lm-studio

Комментарии (108)

  • Пользователи отмечают снижение привлекательности Cursor из-за улучшения альтернатив (VSCode с Copilot, Claude Code) и проблем с ценовой политикой/стабильностью Cursor.
  • Ключевым преимуществом Cursor считается удобное управление состоянием правок (чекпойнты, откаты) и, по мнению некоторых, лучшее автодополнение (Supermaven).
  • Растёт интерес к использованию локальных моделей (LM Studio, Ollama) и CLI-инструментам (Claude Code) из-за проблем с квотами, стоимостью и стабильностью подключения в облачных решениях.
  • Многие пользователи выражают недовольство стоимостью Cursor, сложностью отслеживания расходов и непредсказуемой скоростью ответа.
  • Cursor позиционируется некоторыми как удобный «всё-в-одном» вариант для частого переключения моделей и параллельной работы нескольких агентов, но его долгосрочная актуальность ставится под сомнение.

Windows ML is generally available (blogs.windows.com)

Windows ML теперь общедоступна, позволяя разработчикам внедрять локальный ИИ на устройствах с Windows. Это решение поддерживает аппаратное ускорение через DirectML, обеспечивая высокую производительность на CPU, GPU и NPU. Разработчики могут использовать предварительно обученные модели или создавать собственные, интегрируя их в приложения без облачной зависимости.

Ключевые преимущества включают снижение задержек, повышение конфиденциальности данных и работу в офлайн-режиме. Windows ML совместима с популярными фреймворками, такими как ONNX, и упрощает развёртывание на миллиардах устройств. Это открывает новые возможности для сценариев вроде обработки изображений, распознавания речи и генеративного ИИ прямо на устройстве пользователя.

by sorenjan • 25 сентября 2025 г. в 20:11 • 97 points

ОригиналHN

#windows-ml#directml#onnx#llm#machine-learning#amd#rocm#migraphx#vitis#ollama

Комментарии (28)

  • Критика подхода Ollama к веб-поиску и его влияния на open-source, в сравнении с глубокой интеграцией Windows ML в экосистему Microsoft.
  • Обсуждение технических проблем с бэкендами AMD (ROCm, MIGraphX, Vitis) и надежд на улучшение поддержки оборудования в Windows ML.
  • Вопросы о приватности данных при использовании Windows ML и сравнение с локальным запуском моделей через Ollama.
  • Сравнение Windows ML с решением Apple для доступа к локальным моделям и обсуждение его как абстракции для аппаратного обеспечения (аналог DirectX для ML).
  • Обсуждение поддержки ONNX как стандарта и проблем с совместимостью пользовательских слоев моделей (например, flash attention) в Windows ML.

Ollama Web Search (ollama.com) 🔥 Горячее 💬 Длинная дискуссия

Ollama представила новый API для веб-поиска, который позволяет моделям получать актуальную информацию из интернета, снижая риск галлюцинаций и повышая точность ответов. Бесплатный тариф доступен для индивидуального использования, а повышенные лимиты — через Ollama Cloud. API интегрирован с Python и JavaScript библиотеками, что упрощает создание инструментов для длительных исследовательских задач, включая работу с моделями вроде OpenAI gpt-oss.

Примеры кода демонстрируют использование через cURL, Python и JavaScript, возвращая структурированные результаты поиска с заголовками, URL и содержанием. Также показано, как построить поискового агента с помощью модели Qwen 3 от Alibaba, используя инструменты web_search и web_fetch для автоматизации запросов и обработки данных. Это расширяет возможности моделей, позволяя им активно взаимодействовать с веб-источниками в реальном времени.

by jmorgan • 25 сентября 2025 г. в 19:21 • 324 points

ОригиналHN

#ollama#api#python#javascript#curl#web-search#alibaba#qwen

Комментарии (158)

  • Вопросы о поисковом провайдере и лицензии на результаты поиска, включая возможность их хранения и перепубликации.
  • Сомнения в бизнес-модели Ollama, её переходе от локального хостинга к облачным услугам и планам монетизации.
  • Обсуждение технических альтернатив для локального поиска и индексации, а также интеграции с Ollama.
  • Критика запуска функции веб-поиска без четкой документации по тарифам, лимитам и политике конфиденциальности.
  • Предложения и опыт использования сторонних инструментов для поиска (SearXNG, Tavily, SERP API) и локальных решений.

Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput (github.com)

Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.

Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.

by anuarsh • 19 сентября 2025 г. в 18:36 • 92 points

ОригиналHN

#ollama#llama#mistral#large-language-models#quantization#apple-silicon#gpu#mlx-lm#github

Комментарии (10)

  • Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
  • Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
  • Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
  • Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
  • Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.

Finding thousands of exposed Ollama instances using Shodan (blogs.cisco.com)

Ключевые выводы исследования Cisco по обнаружению открытых серверов Ollama

  • Цель: выявить уязвимые LLM-серверы, запущенные через фреймворк Ollama.
  • Метод: Python-скрипт, сканирующий Shodan на признаки открытых API /api/tags, /api/ps, /api/chat.
  • Результаты: найдено >1 100 публичных инстансов; ~20 % допускают анонимный чат и загрузку моделей.
  • Риски: утечка данных, DoS, финансовые потери (GPU-трафик), инъекция вредоносных моделей.
  • Рекомендации:
    • включить авторизацию и TLS;
    • фильтровать IP-адреса;
    • отключить --network host;
    • использовать reverse-proxy (nginx, traefik) и WAF;
    • регулярно сканировать инфраструктуру.

by rldjbpin • 03 сентября 2025 г. в 08:18 • 124 points

ОригиналHN

#ollama#shodan#python#api#security#nginx#traefik#dos#llm#reverse-proxy

Комментарии (59)

  • Cisco сообщила об открытых в интернете >1 100 серверов Ollama без аутентификации.
  • Ollama по умолчанию не требует пароля и не планирует встроенной защиты API.
  • Пользователи решают проблему через firewall, nginx/caddy с токеном или VPN.
  • Сообщество спорит: виноваты ли разработчики, админы или «вайб-кодеры».
  • Многие считают риск низким, пока LLM не подключены к инструментам и чувствительным данным.

Agent-C: a 4KB AI agent (github.com)

agent-c — сверхлёгкий AI-агент от bravenewxyz.
Проект открыт, код на GitHub.

by liszper • 25 августа 2025 г. в 10:43 • 104 points

ОригиналHN

#c#curl#openrouter#ollama#docker#python#rust#llm#agent#upx

Комментарии (78)

  • 4 КБ-агент на Си вызывает OpenRouter через curl и исполняет команды, что вызывает шутки о «русской рулетке» и безопасности.
  • Критика: сжатие UPX, отсутствие проверок ошибок, жёстко заданные константы, popen вместо libcurl.
  • Лицензии обсуждают от «Copy me» до CC0, BSD, Apache, GPL и WTFPL.
  • Некоторые предлагают запускать под отдельным пользователем или в Docker, локально через Ollama/LM Studio.
  • Промпт заставляет агента говорить как Наполеон Динамит («Gosh!», «Sweet!»).
  • Сравнивают с Rust-версией «alors» и оффлайн-Python-примером на 44 строки.

Llama-Scan: Convert PDFs to Text W Local LLMs (github.com)

llama-scan — локальный инструмент для транскрибирования PDF с помощью LLM.
Полностью работает на вашем ПК: данные не уходят в облако.
Поддерживает модели Llama 3.2 3B/1B, работает без GPU.

Возможности

  • Конвертация PDF → Markdown
  • Пакетная обработка папок
  • Параллельные задачи
  • Подсчёт токенов и стоимости
  • Плагины для Obsidian и Zotero

Установка

pip install llamascan

Использование

CLI:

llamascan input.pdf --output out.md

Python:

from llamascan import transcribe
transcribe("file.pdf", model="llama3.2:3b")

Требования

  • Python ≥ 3.9
  • Ollama (для локальных моделей)

Лицензия

MIT

by nawazgafar • 17 августа 2025 г. в 21:40 • 206 points

ОригиналHN

#python#ollama#llama#pdf#markdown#ocr#llm#pypi#github

Комментарии (78)

  • Участники сравнивают LLM-OCR с классическими решениями: первые могут «галлюцинировать» и терять структуру, вторые точнее, но не понимают макет.
  • Практики делятся пайплайнами: извлечь текст, снять скрин страницы, отправить всё в LLM с чётким промптом и структурированным выводом.
  • Авторы жалуются на провисание процесса, пропуск символов и невозможность редактировать промпт под свои задачи (например, выделять только рукописные таблицы).
  • Рекомендуют альтернативы: nanonets-ocr-s, Docling, Marker, Nougat, ocrmypdf, pgpdf, а также советуют бенчмарк OmniDocBench для объективной оценки.

Gemma 3 270M: Compact model for hyper-efficient AI (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.

  • Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
  • Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
  • Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
  • Лицензия: Gemma Terms of Use, коммерческое применение разрешено.

Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.

by meetpateltech • 14 августа 2025 г. в 16:08 • 764 points

ОригиналHN

#google#vertex-ai#keras#jax#pytorch#ollama#transformers#wordpress#llm

Комментарии (291)

  • Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
  • Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
  • Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
  • Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
  • Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.

Show HN: OWhisper – Ollama for realtime speech-to-text (docs.hyprnote.com)

OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.

Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:

  • быстрого локального прототипа;
  • развёртывания крупных моделей на собственной инфраструктуре.

CLI — для локального запуска, Proxy — для облачных/крупных моделей.

FAQ

  • Код: в репозитории Hyprnote (owhisper).
  • Лицензия: GPLv3, планируется MIT.

by yujonglee • 14 августа 2025 г. в 15:47 • 249 points

ОригиналHN

#ollama#whisper#moonshine#deepgram#speech-to-text#gplv3#api

Комментарии (65)

  • Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
  • Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
  • Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
  • Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
  • Поддерживаемые модели перечислены в CLI (owhisper pull --help) и скоро появятся на сайте.

Ollama and gguf (github.com)

Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.

Окружение:

  • Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
  • Ollama 0.3.6 (AppImage и Docker)
  • Файл gpt-oss-20b.q4_0.gguf взят из официального репозитория TheBloke, 11 ГБ

Лог:

ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model

Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.

Решение:

  1. Перекачать модель (curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш.
  2. Если проблема сохраняется — использовать другой квант (q4_K_M или q5_0).
  3. Либо конвертировать оригинальные веса самостоятельно через llama.cpp/convert.py.

by indigodaddy • 11 августа 2025 г. в 17:54 • 156 points

ОригиналHN

#ollama#gguf#llama.cpp#ggml#cuda#quantization#docker#ubuntu#github

Комментарии (70)

  • Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
  • Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
  • Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
  • Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

  • 2-3 × z.ai GLM 4.5 (≈ Claude 4)
  • 2 × Kimi K2 (багфиксер)
  • Qwen3 Coder, DeepSeek v3/r1
  • Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
  • OpenAI Playground (разрешить обучение → бесплатные токены)
  • Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
    Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

  1. Планирование в веб-чатах
    Агенты (Cline, Copilot) «тупят» от лишнего контекста.
    → Задаю вопрос в одном из бесплатных чатов, получаю решение.

  2. Генерация контекста
    AI Code Prep рекурсивно собирает файлы проекта и форматирует:

    fileName.js:
    <code>...</code>
    
    nextFile.py:
    <code>...</code>
    
  3. Исполнение
    Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

ОригиналHN

#glm#claude#kimi#qwen#deepseek#gemini#openai#amazon#ollama#lmstudio

Комментарии (219)

  • Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
  • Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
  • Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
  • Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
  • Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.

Jan – Ollama alternative with local UI (github.com)

by maxloh • 09 августа 2025 г. в 09:54 • 174 points

ОригиналHN

#ollama#lm-studio#openwebui#llama-server#local-models#linux#ui#github

Комментарии (69)

  • Пользователи жалуются: Jan не умеет параллельно общаться с несколькими моделями, требует слишком много RAM/VRAM и «тяжело» работает на Linux.
  • Запуск локальных моделей часто ломается: llama-server не стартует, Ollama-совместимость требует ручной настройки OLLAMA_HOST и OLLAMA_ORIGINS.
  • UI раньше был багованным; сейчас, по отзывам, стал лучше, но проект всё ещё выглядит как «черновик архитектуры», а не готовое решение.
  • Jan позиционируется как десктоп-альтернатива LM Studio (и частично OpenWebUI), но с открытым кодом и поддержкой удалённых провайдеров.
  • Некоторые участники сомневаются в «принципах» команды: обещанные встречи не состоялись, связь прервалась.

I want everything local – Building my offline AI workspace (instavm.io) 🔥 Горячее 💬 Длинная дискуссия

  • Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple container (изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter).
  • Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
  • Проблемы:
    – Модели Ollama пока не поддерживают вызовы инструментов.
    – Создание нативного Mac-приложения провалилось: a0.dev заточен под iOS, Electron + NextJS оказались геморроем.
    – Apple container часто падает с Trap; помогает pkill + перезапуск.
  • Решения:
    – Веб-версия assistant-ui через ai-sdk с выпадающим списком моделей (локальных и облачных).
    – Jupyter в изолированной ВМ, доступен по MCP: http://coderunner.local:8222/mcp.
    – Конфиг для Claude Desktop: "coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.

by mkagenius • 08 августа 2025 г. в 18:19 • 1026 points

ОригиналHN

#ollama#assistant-ui#apple-container#playwright#coderunner#jupyter#mcp#docker#rag#vector-databases

Комментарии (274)

  • Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo.
  • Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или docker compose up -d просится как минимальный способ разворачивания.
  • Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
  • Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
  • Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

  • Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:

    1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
    2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
  • Методика

    • Одинаковые образы Docker/Podman на обеих платформах.
    • Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
    • Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
    • Повторять 3×, усреднять, выводить ±σ.
  • Автоматизация

    • Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
    • Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
    • Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
  • Сравнение

    • Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
    • Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

ОригиналHN

#ollama#docker#podman#ansible#prometheus#grafana#llama.cpp#rocm#linux#nvidia

Комментарии (57)

  • AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
  • Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
  • ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
  • Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
  • Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.

Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs (baseten.co) 💬 Длинная дискуссия

  • В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.

  • Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.

  • Работы включали:

    • Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
    • Совместимость с архитектурами Hopper и Blackwell.
    • Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
    • Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.

Шаг 1: Первый инференс

  • Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
  • Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
  • Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
  • Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.

Шаг 2: Исправление багов совместимости

  • Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
  • Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
  • Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.

Шаг 3: Оптимизация конфигурации

  • Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
  • Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
  • Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.

by philipkiely • 07 августа 2025 г. в 02:28 • 217 points

ОригиналHN

#gpt-oss-120b#nvidia#tensorrt-llm#vllm#sglang#hopper#blackwell#nvidia-dynamo#llama#ollama

Комментарии (151)

  • Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
  • Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
  • TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
  • Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
  • Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
  • Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
  • Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.

Ollama Turbo (ollama.com) 🔥 Горячее 💬 Длинная дискуссия

by amram_art • 05 августа 2025 г. в 18:46 • 418 points

ОригиналHN

#ollama

Комментарии (234)

Nice release. Part of the problem right now with OSS models (at least for enterprise users) is the diversity of offerings in terms of:- Speed- Cost- Reliability- Feature Parity (eg: context caching)- Performance (What quant level is being used...really?)- Host region/data privacy

Open models by OpenAI (openai.com) 🔥 Горячее 💬 Длинная дискуссия

Открытые модели OpenAI

Продвинутые модели с открытыми весами для любого кейса и запуска где угодно.

Ссылки:

  • Загрузить на Hugging Face
  • Исходники на GitHub
  • Попробовать демо

Модели:

  • gpt-oss-120b — крупная модель для дата-центров и мощных ПК/ноутбуков.
  • gpt-oss-20b — средняя модель, работает на большинстве ПК/ноутбуков.

Преимущества:

  • Разрешительная лицензия: Apache 2.0 — свободная разработка, без копилефта и патентных рисков; подходит для экспериментов, кастомизации и коммерческого использования.
  • Для агентных задач: сильное следование инструкциям и работа с инструментами в ходе рассуждений (веб-поиск, запуск Python-кода).
  • Глубокая настраиваемость: выбор уровня «усилия рассуждений» (низкий/средний/высокий) и полно-параметрический финтюнинг под ваш кейс.
  • Полная «цепочка рассуждений»: доступна для удобной отладки и повышения доверия к ответам.

Интерактивное демо:

  • Простой playground для запуска обеих моделей в браузере.

by lackoftactics • 05 августа 2025 г. в 17:02 • 2083 points

ОригиналHN

#openai#llm#apache-2.0#python#hugging-face#github#rust#llama.cpp#ollama

Комментарии (845)

  • Обсуждение посвящено выходу открытых моделей OpenAI gpt-oss (20B и 120B), которые по бенчмаркам близки к o3/o4-mini и местами обгоняют открытые лидеры; многие отмечают, что 20B уже реально запускается локально на Mac/мобильных устройствах.
  • Пользователи делятся первыми впечатлениями и ссылками на обзоры/модель-карты, отмечая конкурентную производительность, совместимый токенайзер и адекватное лицензирование; есть поддержка в llama.cpp, Ollama, LM Studio, Harmony формат ответов и растущая роль Rust в инструментах OpenAI.
  • Скорости инференса сильно варьируются: от очень быстрых облачных провайдеров (Cerebras/Groq на OpenRouter) до заметных задержек локально при больших контекстах; производительность зависит от GPU/платформы и параметров квантования.
  • Отмечают стратегический сдвиг OpenAI к модели Meta: открытые веса как средство захвата экосистемы и снижения порога входа; звучат предположения, что релиз предвосхищает скорый анонс ещё более сильной закрытой модели.
  • Сообщество обсуждает экономику: гибридные пайплайны (локально — простые задачи, в облако — сложные), возможность заменять платные подписки локальным запуском, и общий тренд в пользу OSS при минимальной разнице в качестве.
  • Есть критика: у 120B встречаются галлюцинации на фактах, часть пользователей недовольна агрессивной безопасностью/отказами, отсутствием оптимизаций под RTX 50, а также неполной мультимодальностью.
  • В целом настроение позитивное: многие благодарят за «настоящий» открытый релиз с сопутствующими инструментами и ожидают независимых бенчмарков, которые могут закрепить лидерство gpt-oss среди текстовых открытых моделей.