New coding models and integrations
Ollama выпустила новые мощные модели для генерации и анализа кода, а также обновила интеграции с популярными средами разработки. GLM-4.6 и Qwen3-Coder-480B теперь доступны как в облаке, так и локально, поддерживая до 300 ГБ видеопамяти. Эти модели могут использоваться напрямую через API Ollama, а также интегрированы с VS Code, Zed и Droid через простые настройки в интерфейсе. Например, для VS Code достаточно указать модель в настройках Copilot, а для Droid — через конфигурационный файл. Новые модели особенно эффективны для генерации и рефакторинга кода, включая создание полных приложений по текстовому описанию. Пример: GLM-4.6 смог создать игру типа "Dino" в одном HTML-файле по текстовому запросу.
Комментарии (63)
- Пользователи обсуждают использование модели GLM-4.6, её доступность и стоимость, включая обсуждение её использования через различные сервисы и API.
- Обсуждается использование локальных моделей, включая проблемы с производительностью и ограничениями на оборудовании.
- Участники обсуждают использование Ollama и их моделей, включая обсуждение их доступности и стоимости.
- Обсуждается использование различных моделей для кодирования, включая их сравнение и стоимость.
- Обсуждается использование и стоимость различных облачных и локальных решений, включая их сравнение и стоимость.
Cursor 1.7
В Cursor появились три ключевые функции для улучшения работы с ИИ-агентом. Автодополнение теперь предлагает подсказки на основе недавних изменений, ускоряя написание промптов. Хуки (в бета-версии) позволяют настраивать поведение агента через кастомные скрипты — например, для аудита использования, блокировки команд или скрытия секретов. Командные правила дают возможность устанавливать глобальные настройки через дашборд, обеспечивая единообразие во всех проектах, включая интеграцию с Bugbot.
Дополнительные улучшения: делиться промптами через deeplinks для документации и рабочих процессов, мониторить агентов из менюбара и работать с изображениями напрямую из рабочей области. Ранее поддержка была только для вставленных изображений. Эти обновления повышают гибкость и контроль над ИИ-инструментами в командной среде.
Комментарии (108)
- Пользователи отмечают снижение привлекательности Cursor из-за улучшения альтернатив (VSCode с Copilot, Claude Code) и проблем с ценовой политикой/стабильностью Cursor.
- Ключевым преимуществом Cursor считается удобное управление состоянием правок (чекпойнты, откаты) и, по мнению некоторых, лучшее автодополнение (Supermaven).
- Растёт интерес к использованию локальных моделей (LM Studio, Ollama) и CLI-инструментам (Claude Code) из-за проблем с квотами, стоимостью и стабильностью подключения в облачных решениях.
- Многие пользователи выражают недовольство стоимостью Cursor, сложностью отслеживания расходов и непредсказуемой скоростью ответа.
- Cursor позиционируется некоторыми как удобный «всё-в-одном» вариант для частого переключения моделей и параллельной работы нескольких агентов, но его долгосрочная актуальность ставится под сомнение.
Windows ML is generally available
Windows ML теперь общедоступна, позволяя разработчикам внедрять локальный ИИ на устройствах с Windows. Это решение поддерживает аппаратное ускорение через DirectML, обеспечивая высокую производительность на CPU, GPU и NPU. Разработчики могут использовать предварительно обученные модели или создавать собственные, интегрируя их в приложения без облачной зависимости.
Ключевые преимущества включают снижение задержек, повышение конфиденциальности данных и работу в офлайн-режиме. Windows ML совместима с популярными фреймворками, такими как ONNX, и упрощает развёртывание на миллиардах устройств. Это открывает новые возможности для сценариев вроде обработки изображений, распознавания речи и генеративного ИИ прямо на устройстве пользователя.
Комментарии (28)
- Критика подхода Ollama к веб-поиску и его влияния на open-source, в сравнении с глубокой интеграцией Windows ML в экосистему Microsoft.
- Обсуждение технических проблем с бэкендами AMD (ROCm, MIGraphX, Vitis) и надежд на улучшение поддержки оборудования в Windows ML.
- Вопросы о приватности данных при использовании Windows ML и сравнение с локальным запуском моделей через Ollama.
- Сравнение Windows ML с решением Apple для доступа к локальным моделям и обсуждение его как абстракции для аппаратного обеспечения (аналог DirectX для ML).
- Обсуждение поддержки ONNX как стандарта и проблем с совместимостью пользовательских слоев моделей (например, flash attention) в Windows ML.
Ollama Web Search 🔥 Горячее 💬 Длинная дискуссия
Ollama представила новый API для веб-поиска, который позволяет моделям получать актуальную информацию из интернета, снижая риск галлюцинаций и повышая точность ответов. Бесплатный тариф доступен для индивидуального использования, а повышенные лимиты — через Ollama Cloud. API интегрирован с Python и JavaScript библиотеками, что упрощает создание инструментов для длительных исследовательских задач, включая работу с моделями вроде OpenAI gpt-oss.
Примеры кода демонстрируют использование через cURL, Python и JavaScript, возвращая структурированные результаты поиска с заголовками, URL и содержанием. Также показано, как построить поискового агента с помощью модели Qwen 3 от Alibaba, используя инструменты web_search и web_fetch для автоматизации запросов и обработки данных. Это расширяет возможности моделей, позволяя им активно взаимодействовать с веб-источниками в реальном времени.
Комментарии (158)
- Вопросы о поисковом провайдере и лицензии на результаты поиска, включая возможность их хранения и перепубликации.
- Сомнения в бизнес-модели Ollama, её переходе от локального хостинга к облачным услугам и планам монетизации.
- Обсуждение технических альтернатив для локального поиска и индексации, а также интеграции с Ollama.
- Критика запуска функции веб-поиска без четкой документации по тарифам, лимитам и политике конфиденциальности.
- Предложения и опыт использования сторонних инструментов для поиска (SearXNG, Tavily, SERP API) и локальных решений.
Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.
Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.
Комментарии (10)
- Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
- Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
- Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
- Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
- Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.
Finding thousands of exposed Ollama instances using Shodan
Ключевые выводы исследования Cisco по обнаружению открытых серверов Ollama
- Цель: выявить уязвимые LLM-серверы, запущенные через фреймворк Ollama.
- Метод: Python-скрипт, сканирующий Shodan на признаки открытых API
/api/tags,/api/ps,/api/chat. - Результаты: найдено >1 100 публичных инстансов; ~20 % допускают анонимный чат и загрузку моделей.
- Риски: утечка данных, DoS, финансовые потери (GPU-трафик), инъекция вредоносных моделей.
- Рекомендации:
- включить авторизацию и TLS;
- фильтровать IP-адреса;
- отключить
--network host; - использовать reverse-proxy (nginx, traefik) и WAF;
- регулярно сканировать инфраструктуру.
Комментарии (59)
- Cisco сообщила об открытых в интернете >1 100 серверов Ollama без аутентификации.
- Ollama по умолчанию не требует пароля и не планирует встроенной защиты API.
- Пользователи решают проблему через firewall, nginx/caddy с токеном или VPN.
- Сообщество спорит: виноваты ли разработчики, админы или «вайб-кодеры».
- Многие считают риск низким, пока LLM не подключены к инструментам и чувствительным данным.
Agent-C: a 4KB AI agent
agent-c — сверхлёгкий AI-агент от bravenewxyz.
Проект открыт, код на GitHub.
Комментарии (78)
- 4 КБ-агент на Си вызывает OpenRouter через curl и исполняет команды, что вызывает шутки о «русской рулетке» и безопасности.
- Критика: сжатие UPX, отсутствие проверок ошибок, жёстко заданные константы, popen вместо libcurl.
- Лицензии обсуждают от «Copy me» до CC0, BSD, Apache, GPL и WTFPL.
- Некоторые предлагают запускать под отдельным пользователем или в Docker, локально через Ollama/LM Studio.
- Промпт заставляет агента говорить как Наполеон Динамит («Gosh!», «Sweet!»).
- Сравнивают с Rust-версией «alors» и оффлайн-Python-примером на 44 строки.
Llama-Scan: Convert PDFs to Text W Local LLMs
llama-scan — локальный инструмент для транскрибирования PDF с помощью LLM.
Полностью работает на вашем ПК: данные не уходят в облако.
Поддерживает модели Llama 3.2 3B/1B, работает без GPU.
Возможности
- Конвертация PDF → Markdown
- Пакетная обработка папок
- Параллельные задачи
- Подсчёт токенов и стоимости
- Плагины для Obsidian и Zotero
Установка
pip install llamascan
Использование
CLI:
llamascan input.pdf --output out.md
Python:
from llamascan import transcribe
transcribe("file.pdf", model="llama3.2:3b")
Требования
- Python ≥ 3.9
- Ollama (для локальных моделей)
Лицензия
MIT
Комментарии (78)
- Участники сравнивают LLM-OCR с классическими решениями: первые могут «галлюцинировать» и терять структуру, вторые точнее, но не понимают макет.
- Практики делятся пайплайнами: извлечь текст, снять скрин страницы, отправить всё в LLM с чётким промптом и структурированным выводом.
- Авторы жалуются на провисание процесса, пропуск символов и невозможность редактировать промпт под свои задачи (например, выделять только рукописные таблицы).
- Рекомендуют альтернативы: nanonets-ocr-s, Docling, Marker, Nougat, ocrmypdf, pgpdf, а также советуют бенчмарк OmniDocBench для объективной оценки.
Gemma 3 270M: Compact model for hyper-efficient AI 🔥 Горячее 💬 Длинная дискуссия
Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.
- Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
- Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
- Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
- Лицензия: Gemma Terms of Use, коммерческое применение разрешено.
Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.
Комментарии (291)
- Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
- Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
- Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
- Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
- Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.
Show HN: OWhisper – Ollama for realtime speech-to-text
OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.
Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:
- быстрого локального прототипа;
- развёртывания крупных моделей на собственной инфраструктуре.
CLI — для локального запуска, Proxy — для облачных/крупных моделей.
FAQ
- Код: в репозитории Hyprnote (
owhisper). - Лицензия: GPLv3, планируется MIT.
Комментарии (65)
- Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
- Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
- Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
- Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
- Поддерживаемые модели перечислены в CLI (
owhisper pull --help) и скоро появятся на сайте.
Ollama and gguf
Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.
Окружение:
- Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
- Ollama 0.3.6 (AppImage и Docker)
- Файл
gpt-oss-20b.q4_0.ggufвзят из официального репозиторияTheBloke, 11 ГБ
Лог:
ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model
Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.
Решение:
- Перекачать модель (
curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш. - Если проблема сохраняется — использовать другой квант (
q4_K_Mилиq5_0). - Либо конвертировать оригинальные веса самостоятельно через
llama.cpp/convert.py.
Комментарии (70)
- Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
- Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
- Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
- Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code> -
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.
Комментарии (69)
- Пользователи жалуются: Jan не умеет параллельно общаться с несколькими моделями, требует слишком много RAM/VRAM и «тяжело» работает на Linux.
- Запуск локальных моделей часто ломается: llama-server не стартует, Ollama-совместимость требует ручной настройки
OLLAMA_HOSTиOLLAMA_ORIGINS. - UI раньше был багованным; сейчас, по отзывам, стал лучше, но проект всё ещё выглядит как «черновик архитектуры», а не готовое решение.
- Jan позиционируется как десктоп-альтернатива LM Studio (и частично OpenWebUI), но с открытым кодом и поддержкой удалённых провайдеров.
- Некоторые участники сомневаются в «принципах» команды: обещанные встречи не состоялись, связь прервалась.
I want everything local – Building my offline AI workspace 🔥 Горячее 💬 Длинная дискуссия
- Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple
container(изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter). - Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
- Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось:a0.devзаточен под iOS, Electron + NextJS оказались геморроем.
– Applecontainerчасто падает сTrap; помогаетpkill+ перезапуск. - Решения:
– Веб-версияassistant-uiчерезai-sdkс выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP:http://coderunner.local:8222/mcp.
– Конфиг для Claude Desktop:"coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.
Комментарии (274)
- Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом
coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo. - Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или
docker compose up -dпросится как минимальный способ разворачивания. - Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
- Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
- Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.
Benchmark Framework Desktop Mainboard and 4-node cluster
-
Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:
- настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
- кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
-
Методика
- Одинаковые образы Docker/Podman на обеих платформах.
- Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
- Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
- Повторять 3×, усреднять, выводить ±σ.
-
Автоматизация
- Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
- Скрипт
run-suite.shпоследовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода. - Результаты пишутся в CSV и публикуются в PR как
results-<platform>-<date>.md.
-
Сравнение
- Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
- Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.
Комментарии (57)
- AMD Framework Desktop (AI Max+ 395) показывает 2,5–3× прирост к RTX 4000 SFF Ada 20 ГБ, но уступает 9950X из-за низкого TDP.
- Для локального запуска LLM рекомендуют RTX 3090 (24 ГБ) как лучшее ценовое решение, либо Apple/AMD при необходимости >20 ГБ памяти.
- ROCm и Linux-стек работают стабильно, но потенциал iGPU/NPU ещё не раскрыт; тесты велись в llama.cpp.
- Для масштабирования предлагают distributed-llama, Exo и llama.cpp-RPC, а также Oculink/eGPU-конфигурации.
- Продукт выглядит нишевым: ML-инференс дома, но для «обычных» задач лучше Threadripper или сервер.
Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs 💬 Длинная дискуссия
-
В день выхода открытой модели вроде gpt-oss-120b мы сразу ускоряем её для клиентов, как партнёры запуска OpenAI. К концу дня запуска стали лидерами на NVIDIA по латентности и пропускной способности по данным OpenRouter.
-
Быстрая оптимизация обеспечена гибким стеком инференса и экспертизой команды; за время написания поста прибавили ещё ~100 ток/с при 100% аптайме.
-
Работы включали:
- Тесты и бенчмарки в TensorRT-LLM, vLLM и SGLang.
- Совместимость с архитектурами Hopper и Blackwell.
- Интеграцию с нашим стеком (в т. ч. NVIDIA Dynamo).
- Оптимизации: маршрутизация с учётом KV-кэша, спекулятивная генерация с Eagle.
Шаг 1: Первый инференс
- Запускаем базовый инференс в любом доступном фреймворке и на нужных GPU/серверных уровнях.
- Параллелим работу: одни пробуют vLLM и SGLang, другие — TensorRT-LLM; быстрее всего взлетел TensorRT-LLM.
- Важно обслуживать модель и на Hopper (H100), и на Blackwell (B200) для широкой доступности и максимальной скорости.
- Гибкость рантайма позволяет быстро переключать инструменты и обновлять матрицу поддержки.
Шаг 2: Исправление багов совместимости
- Новые архитектуры приводят к тонким несовместимостям; GPT OSS добавил, например, Harmony — новый формат ответов.
- Итеративно чиним и валидируем на скорость и корректность; по возможности контрибутим обратно в open source.
- Благодаря сообществу есть несколько отличных путей запуска GPT OSS, проблемы быстро выявляются и чинятся.
Шаг 3: Оптимизация конфигурации
- Хотя GPT OSS 120B можно запустить на одном H100, оптимально масштабировать на 4–8 GPU для лучшей латентности/throughput.
- Рассмотрены два подхода параллелизма для MoE: тензорный и экспертный. Тензорный даёт меньшую задержку, экспертный — выше системную пропускную способность. Мы выбрали тензорный, так как приоритет — латентность.
- Приняли MoE Backend в TensorRT-LLM (поддерживается на Blackwell, не на Hopper), который добавляет более быстрые CUDA-ядра и превосходит предыдущие решения.
Комментарии (151)
- Обсуждение крутится вокруг запуска и производительности GPT-OSS (20B/120B) на разном железе: от MacBook M-серии и RTX 4090/3050 до датацентровых H100/Blackwell и даже CPU.
- Многие отмечают, что скорость хороша при малых контекстах; при >10k токенов начинается существенная деградация скорости и рост задержек, особенно без MCP/веб-доступа.
- TensorRT-LLM часто даёт лучшую латентность/пропускную способность, но сложен в настройке; альтернативы вроде vLLM/SGLang проще, Llama/Оllama позволяют быстро поднять 20B локально и даже распределить по старым GPU.
- Идут споры о “доступности” H100: купить дорого, но аренда широко доступна и выгоднее для нерегулярных нагрузок; при этом Blackwell с FP4 обещает ещё больший буст, в экосистеме Rust добавляют FP8/FP4.
- Пользователи спрашивают про требования к VRAM, практичную локальную агентную разработку на потребительских GPU, и оптимальные настройки на Mac (например, iogpu.wired_limit_mb).
- Обсуждают техники ускорения (спекулятивное декодирование — вызывающее вопросы пользы), причины падения токен/с при длинных диалогах, и различие prefill vs decode по узким местам.
- Наряду с похвалами скорости есть критика: сложность стеков, неточности/галлюцинации ответов, «извиняльный» контент, и вопрос — зачем OpenAI выпускает OSS-модели и как это соотносится с доступностью железа.
Ollama Turbo 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
Nice release. Part of the problem right now with OSS models (at least for enterprise users) is the diversity of offerings in terms of:- Speed- Cost- Reliability- Feature Parity (eg: context caching)- Performance (What quant level is being used...really?)- Host region/data privacy
Open models by OpenAI 🔥 Горячее 💬 Длинная дискуссия
Открытые модели OpenAI
Продвинутые модели с открытыми весами для любого кейса и запуска где угодно.
Ссылки:
- Загрузить на Hugging Face
- Исходники на GitHub
- Попробовать демо
Модели:
- gpt-oss-120b — крупная модель для дата-центров и мощных ПК/ноутбуков.
- gpt-oss-20b — средняя модель, работает на большинстве ПК/ноутбуков.
Преимущества:
- Разрешительная лицензия: Apache 2.0 — свободная разработка, без копилефта и патентных рисков; подходит для экспериментов, кастомизации и коммерческого использования.
- Для агентных задач: сильное следование инструкциям и работа с инструментами в ходе рассуждений (веб-поиск, запуск Python-кода).
- Глубокая настраиваемость: выбор уровня «усилия рассуждений» (низкий/средний/высокий) и полно-параметрический финтюнинг под ваш кейс.
- Полная «цепочка рассуждений»: доступна для удобной отладки и повышения доверия к ответам.
Интерактивное демо:
- Простой playground для запуска обеих моделей в браузере.
Комментарии (845)
- Обсуждение посвящено выходу открытых моделей OpenAI gpt-oss (20B и 120B), которые по бенчмаркам близки к o3/o4-mini и местами обгоняют открытые лидеры; многие отмечают, что 20B уже реально запускается локально на Mac/мобильных устройствах.
- Пользователи делятся первыми впечатлениями и ссылками на обзоры/модель-карты, отмечая конкурентную производительность, совместимый токенайзер и адекватное лицензирование; есть поддержка в llama.cpp, Ollama, LM Studio, Harmony формат ответов и растущая роль Rust в инструментах OpenAI.
- Скорости инференса сильно варьируются: от очень быстрых облачных провайдеров (Cerebras/Groq на OpenRouter) до заметных задержек локально при больших контекстах; производительность зависит от GPU/платформы и параметров квантования.
- Отмечают стратегический сдвиг OpenAI к модели Meta: открытые веса как средство захвата экосистемы и снижения порога входа; звучат предположения, что релиз предвосхищает скорый анонс ещё более сильной закрытой модели.
- Сообщество обсуждает экономику: гибридные пайплайны (локально — простые задачи, в облако — сложные), возможность заменять платные подписки локальным запуском, и общий тренд в пользу OSS при минимальной разнице в качестве.
- Есть критика: у 120B встречаются галлюцинации на фактах, часть пользователей недовольна агрессивной безопасностью/отказами, отсутствием оптимизаций под RTX 50, а также неполной мультимодальностью.
- В целом настроение позитивное: многие благодарят за «настоящий» открытый релиз с сопутствующими инструментами и ожидают независимых бенчмарков, которые могут закрепить лидерство gpt-oss среди текстовых открытых моделей.