Hacker News Digest

Тег: #openrouter

Постов: 8

Kimi K2 Thinking, a SOTA open-source trillion-parameter reasoning model (moonshotai.github.io) 🔥 Горячее 💬 Длинная дискуссия

Kimi K2 Thinking — это новая модель от компании 01.AI, демонстрирующая впечатляющие способности в обработке длинных текстов. Модель способна анализировать документы до 128K токенов, что в 8 раз превышает возможности предыдущей версии. Это позволяет ей эффективно работать с целыми книгами, юридическими документами и научными исследованиями за один проход.

Разработчики подчеркивают, что K2 Thinking превосходит конкурентов в задачах, требующих глубокого понимания контекста, особенно на китайском языке. Тесты показывают, что модель достигает 90% точности в сложных аналитических задачах, что делает её одной из самых мощных на рынке. В то же время, компания заявляет о более эффективном использовании вычислительных ресурсов по сравнению с аналогами.

by nekofneko • 06 ноября 2025 г. в 15:06 • 845 points

ОригиналHN

#01.ai#moonshotai#kimi-k2#open-source#large-language-models#gpt-4.5#claude-3.5-sonnet#openrouter#hugging-face

Комментарии (381)

  • Китайские компании (Moonshot, DeepSeek, Qwen, GLM) за последние месяцы выпустили ряд открытых моделей, что ставит под сомнение привычное представление о том, что «открытый исходный код» — это западная практика.
  • Модель Kimi K2 Thinking показала себя как наилучшая в своем классе, превосходя GPT-4.5 и Claude 3.5 Sonnet, и при этом доступна через OpenRouter и Hugging Face.
  • Несмотря на то, что модель не является открытой, Moonshot AI предоставляет доступ к ней бесплатно, что вызывает вопросы о финансировании и стратегии.
  • Появление столь мощных открытых моделей вызывает вопросы о том, как они будут использоваться и как это повлияет на рынок ИИ.

DeepSeek-v3.2-Exp (github.com) 🔥 Горячее

DeepSeek AI выпустила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp. Это обновление демонстрирует улучшенные возможности обработки естественного языка, включая более точное понимание контекста и генерацию кода. Модель оптимизирована для разработчиков и исследователей, предлагая расширенную поддержку программирования и анализа данных.

Ключевые улучшения включают увеличенный контекст обработки, что позволяет эффективнее работать с длинными документами и сложными запросами. Модель также показывает прогресс в мультимодальных задачах, хотя акцент остаётся на текстовых и кодогенерирующих возможностях. Экспериментальный статус означает, что разработчики могут тестировать новые функции до их финального релиза.

by meetpateltech • 29 сентября 2025 г. в 10:26 • 271 points

ОригиналHN

#deepseek#deepseek-v3.2-exp#natural-language-processing#code-generation#sparse-attention#caching#openrouter#github

Комментарии (41)

  • Обсуждается значительное снижение стоимости моделей ИИ, особенно у DeepSeek, с акцентом на важность доступности для широкого распространения технологий.
  • Поднимаются вопросы о технических особенностях моделей (sparse attention, кэширование) и их влиянии на производительность и стоимость вычислений при больших контекстных окнах.
  • Участники спорят о реальной выгоде "дешевых" моделей в рабочих процессах, учитывая необходимость поддержки кэширования провайдером для снижения затрат.
  • Высказываются предположения о дальнейшей динамике цен на ИИ, ссылаясь на возможное продолжение стремительного падения стоимости по аналогии с законом Мура.
  • Обсуждается открытость и прозрачность платформ (OpenRouter, DeepSeek), включая вопросы о использовании данных для обучения и статусе исходного кода.

What happens when coding agents stop feeling like dialup? (martinalderson.com)

Сейчас кодирующие агенты вроде Claude Code работают медленно и ненадёжно, напоминая dialup-модемы 90-х: частые сбои, необходимость перезапусков, скорость генерации всего 30-60 токенов в секунду. Это связано с взрывным ростом потребления токенов — по данным OpenRouter, объёмы выросли в 50 раз за короткий период, а агентные workflows требуют в 1000 раз больше ресурсов, чем обычные чаты.

Более высокая скорость, например 2000 токенов в секунду (как у Cerebras Code), кардинально меняет опыт: разработчик становится узким местом, а не модель. Это открывает путь к новому этапу — параллельным независящим агентам, которые предлагают несколько вариантов решения задачи с автоматической оценкой качества. Однако рост скорости лишь разгоняет спрос, создавая бесконечный цикл: чем лучше модели, тем сложнее задачи, которые мы им ставим.

by martinald • 21 сентября 2025 г. в 12:11 • 128 points

ОригиналHN

#llm#machine-learning#code-generation#productivity#developer-tools#ide#openrouter

Комментарии (133)

  • Скептицизм относительно реального повышения продуктивности из-за LLM: AI может создавать иллюзию продуктивности, снижая когнитивную вовлеченность и порождая проблемы с качеством и сопровождением кода.
  • Ключевая проблема — скорость и контекст: Медленная генерация токенов и постоянное переключение контекста нарушают состояние потока (flow), а ограничения контекста приводят к ошибкам и галлюцинациям.
  • Сдвиг роли разработчика: Инструмент меняет фокус с написания кода на проверку, редактирование и управление AI-агентами, что требует постоянной бдительности и новых навыков.
  • Зависимость от надежности провайдеров: Сбои в работе AI-сервисов сравнимы с остановкой производства, что создает риски для рабочего процесса.
  • Разные стратегии и предпочтения в использовании: Одни разработчики ценят интегрированные в IDE решения (Cursor), другие предпочитают сторонних агентов (Claude, Codex) или используют LLM как «калькулятор» для рутинных задач и обучения.

Anthropic Services Down (status.anthropic.com)

  • 16:28 UTC – API, Console и Claude.ai недоступны; идёт восстановление
  • 16:37–17:15 UTC – исправление применено, наблюдаем за стабильностью

by rob • 10 сентября 2025 г. в 16:31 • 154 points

ОригиналHN

#anthropic#claude.ai#aws#aws-bedrock#vertex-ai#openrouter#api#503-error

Комментарии (72)

  • Пользователи массово жалуются на постоянные падения Anthropic: и API, и консоль, и claude.ai лежат одновременно.
  • Европейцы замечают: пока США спит, Claude работает стабильно; как только начинаются американские часы — 503-ошибки и деградация модели.
  • Кто-то шутит, что придётся «писать код мозгом», как в каменном веке, и копипастить со Stack Overflow.
  • Платящие клиенты недовольны: за 20 $/мес Anthropic падает почти каждую неделю, тогда как Gemini и OpenAI редко.
  • Популярный совет — не полагаться на прямой API, а подключаться к Claude через AWS Bedrock, Vertex AI или мультипровайдерские шлюзы вроде OpenRouter.

GLM 4.5 with Claude Code (docs.z.ai)

GLM-4.5

  • 355B параметров, 32B активных; 128K контекст; 96K выход
  • MoE-архитектура, 15T токенов дообучения, RL-доработка
  • Режимы: thinking (сложные задачи) и мгновенный ответ
  • Инструменты, JSON, потоковый вывод, кэш контекста

GLM-4.5-Air

  • 106B/12B, дешевле и быстрее, качество почти на уровне GLM-4.5

GLM-4.5-X / AirX / Flash

  • X: максимум скорости и качества
  • AirX: лёгкий + сверхбыстрый
  • Flash: бесплатный, для кода и агентов

Ключевые умения
глубокое рассуждение, вызов функций, структурный вывод, поток, кэш.

by vincirufus • 06 сентября 2025 г. в 00:45 • 176 points

ОригиналHN

#glm-4.5#glm-4.5-air#z.ai#claudecode#openrouter#llm#moe-architecture#rl#json#context-caching

Комментарии (77)

  • Пользователи тестируют китайскую модель GLM 4.5 и GLM 4.5 Air от Z.ai как дешёвую замену Claude Sonnet в Claude Code и RooCode.
  • Модель показывает хорошие результаты в коротких задачах, но уступает по длине контекста и стабильности.
  • Подозрения, что OpenRouter и другие поставщики могут отдавать квантованные версии, что портит качество.
  • Политика приватности Z.ai разрешает вечное использование отправленного кода и промптов — кто-то напуган, кто-то считает это нормой.
  • Документация и интеграция вызывают нарекания: нет чёткой инструкции для Claude Code, приходится использовать прокси-обёртки.

Agent-C: a 4KB AI agent (github.com)

agent-c — сверхлёгкий AI-агент от bravenewxyz.
Проект открыт, код на GitHub.

by liszper • 25 августа 2025 г. в 10:43 • 104 points

ОригиналHN

#c#curl#openrouter#ollama#docker#python#rust#llm#agent#upx

Комментарии (78)

  • 4 КБ-агент на Си вызывает OpenRouter через curl и исполняет команды, что вызывает шутки о «русской рулетке» и безопасности.
  • Критика: сжатие UPX, отсутствие проверок ошибок, жёстко заданные константы, popen вместо libcurl.
  • Лицензии обсуждают от «Copy me» до CC0, BSD, Apache, GPL и WTFPL.
  • Некоторые предлагают запускать под отдельным пользователем или в Docker, локально через Ollama/LM Studio.
  • Промпт заставляет агента говорить как Наполеон Динамит («Gosh!», «Sweet!»).
  • Сравнивают с Rust-версией «alors» и оффлайн-Python-примером на 44 строки.

Evaluating LLMs for my personal use case (darkcoding.net)

Краткий итог тестов LLM для личных задач

  • Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
  • Данные: 130 реальных запросов из bash-истории, разбитые на программирование, администрирование, объяснения, общие знания.
  • Платформа: OpenRouter через собственный Rust-клиент ort.
  • Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.

Выводы

  • Почти все модели справляются; различия в качестве минимальны.
  • Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
  • Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
  • Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
  • Победители по категориям
    • Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
    • Сисадмин: Gemini 2.5 Flash.
    • Объяснения: Qwen3 235B.
    • Общие знания: GPT-OSS-120B.

Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».

by goranmoomin • 24 августа 2025 г. в 00:40 • 83 points

ОригиналHN

#rust#python#linux#openrouter#claud-4-sonnet#deepseek-chat-v3#gemini#gpt-oss#qwen3#glm-4.5

Комментарии (28)

  • Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
  • Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
  • Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
  • Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
  • Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.

Token growth indicates future AI spend per dev (blog.kilocode.ai)

  • Kilo превысил 1 трлн токенов/мес в OpenRouter; Cline, Roo, Kilo растут из-за дросселирования Cursor и Claude.
  • Стартапы рассчитывали: себестоимость токенов упадёт на 90 % за год, маржа станет +80 %.
  • Вместо этого цена токенов фронтир-моделей не упала, а расход токенов на задачу вырос.
  • Причины: модели стали крупнее, появились «длинные мысли» и агенты, которые запускают цепочки вызовов.
  • Итог: расход на разработчика уже $20–40 к/мес и стремится к $100 к/год.

by twapi • 11 августа 2025 г. в 17:59 • 167 points

ОригиналHN

#openrouter#llm#cloud#cost#development#agents#inference#opensource

Комментарии (132)

  • Почти все участники считают цифру в $100 000/год на разработчика безосновательной и преувеличенной.
  • Основной аргумент: стоимость инференса либо быстро упадёт, либо станет дешевле запускать opensource-модели локально.
  • Многие отмечают, что уже сейчас $100–200/мес хватает большинству, а при росте нагрузки выгоднее купить железо, чем платить за облако.
  • Поднимается тема «токеномики»: расходы растут из-за параллельных агентов и увеличения контекста, но это пока не дотягивает до $100 000.
  • Часть комментаторов указывает, что крупные компании вряд ли вернутся к on-prem, а будут торговаться за долгосрочные контракты у дешёвых провайдеров.