Cerebras Code now supports GLM 4.6 at 1000 tokens/sec
Cerebras привлек $1.1 млрд в раунде G по оценке $8.1 млрд, представив платформу для быстрой генерации кода на базе модели GLM-4.6. Эта модель обрабатывает более 1,000 токенов в секунду, занимая первое место в рейтинге вызова инструментов Berkeley Function Calling и демонстрируя производительность на уровне Sonnet 4.5 в веб-разработке. Платформа позволяет использовать GLM-4.6 с любым AI-дружелюбным редактором кода через API.
Компания предлагает три тарифных плана: бесплатный с ограниченным доступом, Pro за $50 в месяц (24 млн токенов в день) и Max за $200 (120 млн токенов). Эти варианты подходят как для небольших проектов, так и для полноценной разработки с интеграцией в IDE. Cerebras позиционирует свой сервис как решение для поддержания состояния потока программиста без ожидания генерации кода.
Комментарии (108)
- Cerebras Code с GLM 4.6 демонстрирует высокую скорость генерации (до 1000 ток/с), что значительно ускоряет итерации, особенно для UI-разработки и рутинных задач.
- Пользователи разделились: одни видят в скорости революцию для продуктивности ("секретное оружие"), другие скептичны, считая модель уступающей конкурентам (Claude, GPT) и сомневаясь в отсутствии квантования.
- Практическая ценность зависит от задач: скорость критична для быстрой обратной связи в веб-разработке, но менее полезна для глубокого кодирования или нишевых областей (embedded), где важнее точность.
- Поднимаются вопросы о реальной производительности модели, обоснованности цены ($50/мес) и устойчивости бизнес-модели, особенно при высоких затратах на токены.
- Аппаратная реализация (гигантский чип Cerebras) объясняет скорость, но вызывает споры о влиянии на качество вывода и отсутствие независимой верификации.
DeepSeek-v3.1 🔥 Горячее 💬 Длинная дискуссия
DeepSeek-V3.1 — первый шаг к эпохе агентов
- Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
- Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
- Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com
API
deepseek-chat→ Non-Think,deepseek-reasoner→ Think, контекст 128К.- Поддержка формата Anthropic API и строгого Function Calling (бета).
Инструменты и агенты
- Рост результатов на SWE / Terminal-Bench.
- Эффективнее многошаговые поисковые задачи.
Модель
- База V3.1: дообучена на 840 B токенов для длинного контекста.
- Обновлён токенайзер и шаблон чата.
- Веса открыты: V3.1-Base, V3.1.
Цены
- Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.
Комментарии (253)
- Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
- На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
- Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
- Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
- Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code> -
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.