GLM 4.5 with Claude Code
GLM-4.5
- 355B параметров, 32B активных; 128K контекст; 96K выход
- MoE-архитектура, 15T токенов дообучения, RL-доработка
- Режимы:
thinking
(сложные задачи) и мгновенный ответ - Инструменты, JSON, потоковый вывод, кэш контекста
GLM-4.5-Air
- 106B/12B, дешевле и быстрее, качество почти на уровне GLM-4.5
GLM-4.5-X / AirX / Flash
- X: максимум скорости и качества
- AirX: лёгкий + сверхбыстрый
- Flash: бесплатный, для кода и агентов
Ключевые умения
глубокое рассуждение, вызов функций, структурный вывод, поток, кэш.
Комментарии (77)
- Пользователи тестируют китайскую модель GLM 4.5 и GLM 4.5 Air от Z.ai как дешёвую замену Claude Sonnet в Claude Code и RooCode.
- Модель показывает хорошие результаты в коротких задачах, но уступает по длине контекста и стабильности.
- Подозрения, что OpenRouter и другие поставщики могут отдавать квантованные версии, что портит качество.
- Политика приватности Z.ai разрешает вечное использование отправленного кода и промптов — кто-то напуган, кто-то считает это нормой.
- Документация и интеграция вызывают нарекания: нет чёткой инструкции для Claude Code, приходится использовать прокси-обёртки.
The wall confronting large language models
Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.
Причины стены
- Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
- Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
- Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.
Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.
Что делать
- Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
- Агентские схемы, где LLM вызывает API и внешние системы.
- Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).
Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.
Комментарии (145)
- Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
- Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
- Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
- Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
- Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.