Тег: #ollama — Hacker News Digest

Gemma 3 270M: Compact model for hyper-efficient AI (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.

Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
Лицензия: Gemma Terms of Use, коммерческое применение разрешено.

Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.

by meetpateltech • 14 августа 2025 г. в 16:08 • 764 points

Оригинал • HN

#google #vertex-ai #keras #jax #pytorch #ollama #transformers #wordpress #llm

Комментарии (291)

Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.

Show HN: OWhisper – Ollama for realtime speech-to-text (docs.hyprnote.com)

OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.

Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:

быстрого локального прототипа;
развёртывания крупных моделей на собственной инфраструктуре.

CLI — для локального запуска, Proxy — для облачных/крупных моделей.

FAQ

Код: в репозитории Hyprnote (owhisper).
Лицензия: GPLv3, планируется MIT.

by yujonglee • 14 августа 2025 г. в 15:47 • 249 points

Оригинал • HN

#ollama #whisper #moonshine #deepgram #speech-to-text #gplv3 #api

Комментарии (65)

Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
Поддерживаемые модели перечислены в CLI (owhisper pull --help) и скоро появятся на сайте.

Ollama and gguf (github.com)

Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.

Окружение:

Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
Ollama 0.3.6 (AppImage и Docker)
Файл gpt-oss-20b.q4_0.gguf взят из официального репозитория TheBloke, 11 ГБ

Лог:

ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model

Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.

Решение:

Перекачать модель (curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш.
Если проблема сохраняется — использовать другой квант (q4_K_M или q5_0).
Либо конвертировать оригинальные веса самостоятельно через llama.cpp/convert.py.

by indigodaddy • 11 августа 2025 г. в 17:54 • 156 points

Оригинал • HN

#ollama #gguf #llama.cpp #ggml #cuda #quantization #docker #ubuntu #github

Комментарии (70)

Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

2-3 × z.ai GLM 4.5 (≈ Claude 4)
2 × Kimi K2 (багфиксер)
Qwen3 Coder, DeepSeek v3/r1
Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
OpenAI Playground (разрешить обучение → бесплатные токены)
Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение.
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:
```
fileName.js:
<code>...</code>

nextFile.py:
<code>...</code>
```
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

Оригинал • HN

#glm #claude #kimi #qwen #deepseek #gemini #openai #amazon #ollama #lmstudio

Комментарии (219)

Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.

Jan – Ollama alternative with local UI (github.com)

—

by maxloh • 09 августа 2025 г. в 09:54 • 174 points

Оригинал • HN

#ollama #lm-studio #openwebui #llama-server #local-models #linux #ui #github

Комментарии (69)

Пользователи жалуются: Jan не умеет параллельно общаться с несколькими моделями, требует слишком много RAM/VRAM и «тяжело» работает на Linux.
Запуск локальных моделей часто ломается: llama-server не стартует, Ollama-совместимость требует ручной настройки OLLAMA_HOST и OLLAMA_ORIGINS.
UI раньше был багованным; сейчас, по отзывам, стал лучше, но проект всё ещё выглядит как «черновик архитектуры», а не готовое решение.
Jan позиционируется как десктоп-альтернатива LM Studio (и частично OpenWebUI), но с открытым кодом и поддержкой удалённых провайдеров.
Некоторые участники сомневаются в «принципах» команды: обещанные встречи не состоялись, связь прервалась.

I want everything local – Building my offline AI workspace (instavm.io) 🔥 Горячее 💬 Длинная дискуссия

Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple container (изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter).
Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось: a0.dev заточен под iOS, Electron + NextJS оказались геморроем.
– Apple container часто падает с Trap; помогает pkill + перезапуск.
Решения:
– Веб-версия assistant-ui через ai-sdk с выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP: http://coderunner.local:8222/mcp.
– Конфиг для Claude Desktop: "coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.

by mkagenius • 08 августа 2025 г. в 18:19 • 1026 points

Оригинал • HN

#ollama #assistant-ui #apple-container #playwright #coderunner #jupyter #mcp #docker #rag #vector-databases

Комментарии (274)

Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo.
Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или docker compose up -d просится как минимальный способ разворачивания.
Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.

Benchmark Framework Desktop Mainboard and 4-node cluster (github.com)

Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:
1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
Методика
- Одинаковые образы Docker/Podman на обеих платформах.
- Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
- Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
- Повторять 3×, усреднять, выводить ±σ.
Автоматизация
- Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
- Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
- Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
Сравнение
- Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
- Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.

by geerlingguy • 07 августа 2025 г. в 17:49 • 186 points

Оригинал • HN

#ollama #docker #podman #ansible #prometheus #grafana #llama.cpp #rocm #linux #nvidia

Комментарии (57)

AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.

Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs (baseten.co) 💬 Длинная дискуссия

В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.
Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.
Работы включали:
- Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
- Совместимость с архитектурами Hopper и Blackwell.
- Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
- Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.

Шаг 1: Первый инференс

Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.

Шаг 2: Исправление багов совместимости

Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.

Шаг 3: Оптимизация конфигурации

Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.

by philipkiely • 07 августа 2025 г. в 02:28 • 217 points

Оригинал • HN

#gpt-oss-120b #nvidia #tensorrt-llm #vllm #sglang #hopper #blackwell #nvidia-dynamo #llama #ollama

Комментарии (151)

Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.

Ollama Turbo (ollama.com) 🔥 Горячее 💬 Длинная дискуссия

—

by amram_art • 05 августа 2025 г. в 18:46 • 418 points

Оригинал • HN

#ollama

Nice release. Part of the problem right now with OSS models (at least for enterprise users) is the diversity of offerings in terms of:- Speed- Cost- Reliability- Feature Parity (eg: context caching)- Performance (What quant level is being used...really?)- Host region/data privacy

Open models by OpenAI (openai.com) 🔥 Горячее 💬 Длинная дискуссия

Открытые модели OpenAI

Продвинутые модели с открытыми весами для любого кейса и запуска где угодно.

Ссылки:

Загрузить на Hugging Face
Исходники на GitHub
Попробовать демо

Модели:

gpt-oss-120b — крупная модель для дата-центров и мощных ПК/ноутбуков.
gpt-oss-20b — средняя модель, работает на большинстве ПК/ноутбуков.

Преимущества:

Разрешительная лицензия: Apache 2.0 — свободная разработка, без копилефта и патентных рисков; подходит для экспериментов, кастомизации и коммерческого использования.
Для агентных задач: сильное следование инструкциям и работа с инструментами в ходе рассуждений (веб-поиск, запуск Python-кода).
Глубокая настраиваемость: выбор уровня «усилия рассуждений» (низкий/средний/высокий) и полно-параметрический финтюнинг под ваш кейс.
Полная «цепочка рассуждений»: доступна для удобной отладки и повышения доверия к ответам.

Интерактивное демо:

Простой playground для запуска обеих моделей в браузере.

by lackoftactics • 05 августа 2025 г. в 17:02 • 2083 points

Оригинал • HN

#openai #llm #apache-2.0 #python #hugging-face #github #rust #llama.cpp #ollama

Комментарии (845)

Обсуждение посвящено выходу открытых моделей OpenAI gpt-oss (20B и 120B), которые по бенчмаркам близки к o3/o4-mini и местами обгоняют открытые лидеры; многие отмечают, что 20B уже реально запускается локально на Mac/мобильных устройствах.
Пользователи делятся первыми впечатлениями и ссылками на обзоры/модель-карты, отмечая конкурентную производительность, совместимый токенайзер и адекватное лицензирование; есть поддержка в llama.cpp, Ollama, LM Studio, Harmony формат ответов и растущая роль Rust в инструментах OpenAI.
Скорости инференса сильно варьируются: от очень быстрых облачных провайдеров (Cerebras/Groq на OpenRouter) до заметных задержек локально при больших контекстах; производительность зависит от GPU/платформы и параметров квантования.
Отмечают стратегический сдвиг OpenAI к модели Meta: открытые веса как средство захвата экосистемы и снижения порога входа; звучат предположения, что релиз предвосхищает скорый анонс ещё более сильной закрытой модели.
Сообщество обсуждает экономику: гибридные пайплайны (локально — простые задачи, в облако — сложные), возможность заменять платные подписки локальным запуском, и общий тренд в пользу OSS при минимальной разнице в качестве.
Есть критика: у 120B встречаются галлюцинации на фактах, часть пользователей недовольна агрессивной безопасностью/отказами, отсутствием оптимизаций под RTX 50, а также неполной мультимодальностью.
В целом настроение позитивное: многие благодарят за «настоящий» открытый релиз с сопутствующими инструментами и ожидают независимых бенчмарков, которые могут закрепить лидерство gpt-oss среди текстовых открытых моделей.