Kimi K2 Thinking, a SOTA open-source trillion-parameter reasoning model 🔥 Горячее 💬 Длинная дискуссия
Kimi K2 Thinking — это новая модель от компании 01.AI, демонстрирующая впечатляющие способности в обработке длинных текстов. Модель способна анализировать документы до 128K токенов, что в 8 раз превышает возможности предыдущей версии. Это позволяет ей эффективно работать с целыми книгами, юридическими документами и научными исследованиями за один проход.
Разработчики подчеркивают, что K2 Thinking превосходит конкурентов в задачах, требующих глубокого понимания контекста, особенно на китайском языке. Тесты показывают, что модель достигает 90% точности в сложных аналитических задачах, что делает её одной из самых мощных на рынке. В то же время, компания заявляет о более эффективном использовании вычислительных ресурсов по сравнению с аналогами.
Комментарии (381)
- Китайские компании (Moonshot, DeepSeek, Qwen, GLM) за последние месяцы выпустили ряд открытых моделей, что ставит под сомнение привычное представление о том, что «открытый исходный код» — это западная практика.
- Модель Kimi K2 Thinking показала себя как наилучшая в своем классе, превосходя GPT-4.5 и Claude 3.5 Sonnet, и при этом доступна через OpenRouter и Hugging Face.
- Несмотря на то, что модель не является открытой, Moonshot AI предоставляет доступ к ней бесплатно, что вызывает вопросы о финансировании и стратегии.
- Появление столь мощных открытых моделей вызывает вопросы о том, как они будут использоваться и как это повлияет на рынок ИИ.
DeepSeek-v3.2-Exp 🔥 Горячее
DeepSeek AI выпустила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp. Это обновление демонстрирует улучшенные возможности обработки естественного языка, включая более точное понимание контекста и генерацию кода. Модель оптимизирована для разработчиков и исследователей, предлагая расширенную поддержку программирования и анализа данных.
Ключевые улучшения включают увеличенный контекст обработки, что позволяет эффективнее работать с длинными документами и сложными запросами. Модель также показывает прогресс в мультимодальных задачах, хотя акцент остаётся на текстовых и кодогенерирующих возможностях. Экспериментальный статус означает, что разработчики могут тестировать новые функции до их финального релиза.
Комментарии (41)
- Обсуждается значительное снижение стоимости моделей ИИ, особенно у DeepSeek, с акцентом на важность доступности для широкого распространения технологий.
- Поднимаются вопросы о технических особенностях моделей (sparse attention, кэширование) и их влиянии на производительность и стоимость вычислений при больших контекстных окнах.
- Участники спорят о реальной выгоде "дешевых" моделей в рабочих процессах, учитывая необходимость поддержки кэширования провайдером для снижения затрат.
- Высказываются предположения о дальнейшей динамике цен на ИИ, ссылаясь на возможное продолжение стремительного падения стоимости по аналогии с законом Мура.
- Обсуждается открытость и прозрачность платформ (OpenRouter, DeepSeek), включая вопросы о использовании данных для обучения и статусе исходного кода.
What happens when coding agents stop feeling like dialup?
Сейчас кодирующие агенты вроде Claude Code работают медленно и ненадёжно, напоминая dialup-модемы 90-х: частые сбои, необходимость перезапусков, скорость генерации всего 30-60 токенов в секунду. Это связано с взрывным ростом потребления токенов — по данным OpenRouter, объёмы выросли в 50 раз за короткий период, а агентные workflows требуют в 1000 раз больше ресурсов, чем обычные чаты.
Более высокая скорость, например 2000 токенов в секунду (как у Cerebras Code), кардинально меняет опыт: разработчик становится узким местом, а не модель. Это открывает путь к новому этапу — параллельным независящим агентам, которые предлагают несколько вариантов решения задачи с автоматической оценкой качества. Однако рост скорости лишь разгоняет спрос, создавая бесконечный цикл: чем лучше модели, тем сложнее задачи, которые мы им ставим.
Комментарии (133)
- Скептицизм относительно реального повышения продуктивности из-за LLM: AI может создавать иллюзию продуктивности, снижая когнитивную вовлеченность и порождая проблемы с качеством и сопровождением кода.
- Ключевая проблема — скорость и контекст: Медленная генерация токенов и постоянное переключение контекста нарушают состояние потока (flow), а ограничения контекста приводят к ошибкам и галлюцинациям.
- Сдвиг роли разработчика: Инструмент меняет фокус с написания кода на проверку, редактирование и управление AI-агентами, что требует постоянной бдительности и новых навыков.
- Зависимость от надежности провайдеров: Сбои в работе AI-сервисов сравнимы с остановкой производства, что создает риски для рабочего процесса.
- Разные стратегии и предпочтения в использовании: Одни разработчики ценят интегрированные в IDE решения (Cursor), другие предпочитают сторонних агентов (Claude, Codex) или используют LLM как «калькулятор» для рутинных задач и обучения.
Anthropic Services Down
- 16:28 UTC – API, Console и Claude.ai недоступны; идёт восстановление
- 16:37–17:15 UTC – исправление применено, наблюдаем за стабильностью
Комментарии (72)
- Пользователи массово жалуются на постоянные падения Anthropic: и API, и консоль, и claude.ai лежат одновременно.
- Европейцы замечают: пока США спит, Claude работает стабильно; как только начинаются американские часы — 503-ошибки и деградация модели.
- Кто-то шутит, что придётся «писать код мозгом», как в каменном веке, и копипастить со Stack Overflow.
- Платящие клиенты недовольны: за 20 $/мес Anthropic падает почти каждую неделю, тогда как Gemini и OpenAI редко.
- Популярный совет — не полагаться на прямой API, а подключаться к Claude через AWS Bedrock, Vertex AI или мультипровайдерские шлюзы вроде OpenRouter.
GLM 4.5 with Claude Code
GLM-4.5
- 355B параметров, 32B активных; 128K контекст; 96K выход
- MoE-архитектура, 15T токенов дообучения, RL-доработка
- Режимы:
thinking(сложные задачи) и мгновенный ответ - Инструменты, JSON, потоковый вывод, кэш контекста
GLM-4.5-Air
- 106B/12B, дешевле и быстрее, качество почти на уровне GLM-4.5
GLM-4.5-X / AirX / Flash
- X: максимум скорости и качества
- AirX: лёгкий + сверхбыстрый
- Flash: бесплатный, для кода и агентов
Ключевые умения
глубокое рассуждение, вызов функций, структурный вывод, поток, кэш.
Комментарии (77)
- Пользователи тестируют китайскую модель GLM 4.5 и GLM 4.5 Air от Z.ai как дешёвую замену Claude Sonnet в Claude Code и RooCode.
- Модель показывает хорошие результаты в коротких задачах, но уступает по длине контекста и стабильности.
- Подозрения, что OpenRouter и другие поставщики могут отдавать квантованные версии, что портит качество.
- Политика приватности Z.ai разрешает вечное использование отправленного кода и промптов — кто-то напуган, кто-то считает это нормой.
- Документация и интеграция вызывают нарекания: нет чёткой инструкции для Claude Code, приходится использовать прокси-обёртки.
Agent-C: a 4KB AI agent
agent-c — сверхлёгкий AI-агент от bravenewxyz.
Проект открыт, код на GitHub.
Комментарии (78)
- 4 КБ-агент на Си вызывает OpenRouter через curl и исполняет команды, что вызывает шутки о «русской рулетке» и безопасности.
- Критика: сжатие UPX, отсутствие проверок ошибок, жёстко заданные константы, popen вместо libcurl.
- Лицензии обсуждают от «Copy me» до CC0, BSD, Apache, GPL и WTFPL.
- Некоторые предлагают запускать под отдельным пользователем или в Docker, локально через Ollama/LM Studio.
- Промпт заставляет агента говорить как Наполеон Динамит («Gosh!», «Sweet!»).
- Сравнивают с Rust-версией «alors» и оффлайн-Python-примером на 44 строки.
Evaluating LLMs for my personal use case
Краткий итог тестов LLM для личных задач
- Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
- Данные: 130 реальных запросов из
bash-истории, разбитые на программирование, администрирование, объяснения, общие знания. - Платформа: OpenRouter через собственный Rust-клиент
ort. - Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.
Выводы
- Почти все модели справляются; различия в качестве минимальны.
- Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
- Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
- Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
- Победители по категориям
- Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
- Сисадмин: Gemini 2.5 Flash.
- Объяснения: Qwen3 235B.
- Общие знания: GPT-OSS-120B.
Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».
Комментарии (28)
- Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
- Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
- Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
- Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
- Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.
Token growth indicates future AI spend per dev
- Kilo превысил 1 трлн токенов/мес в OpenRouter; Cline, Roo, Kilo растут из-за дросселирования Cursor и Claude.
- Стартапы рассчитывали: себестоимость токенов упадёт на 90 % за год, маржа станет +80 %.
- Вместо этого цена токенов фронтир-моделей не упала, а расход токенов на задачу вырос.
- Причины: модели стали крупнее, появились «длинные мысли» и агенты, которые запускают цепочки вызовов.
- Итог: расход на разработчика уже $20–40 к/мес и стремится к $100 к/год.
Комментарии (132)
- Почти все участники считают цифру в $100 000/год на разработчика безосновательной и преувеличенной.
- Основной аргумент: стоимость инференса либо быстро упадёт, либо станет дешевле запускать opensource-модели локально.
- Многие отмечают, что уже сейчас $100–200/мес хватает большинству, а при росте нагрузки выгоднее купить железо, чем платить за облако.
- Поднимается тема «токеномики»: расходы растут из-за параллельных агентов и увеличения контекста, но это пока не дотягивает до $100 000.
- Часть комментаторов указывает, что крупные компании вряд ли вернутся к on-prem, а будут торговаться за долгосрочные контракты у дешёвых провайдеров.