Hacker News Digest

Тег: #glm

Постов: 3

Cerebras Code now supports GLM 4.6 at 1000 tokens/sec (cerebras.ai)

Cerebras привлек $1.1 млрд в раунде G по оценке $8.1 млрд, представив платформу для быстрой генерации кода на базе модели GLM-4.6. Эта модель обрабатывает более 1,000 токенов в секунду, занимая первое место в рейтинге вызова инструментов Berkeley Function Calling и демонстрируя производительность на уровне Sonnet 4.5 в веб-разработке. Платформа позволяет использовать GLM-4.6 с любым AI-дружелюбным редактором кода через API.

Компания предлагает три тарифных плана: бесплатный с ограниченным доступом, Pro за $50 в месяц (24 млн токенов в день) и Max за $200 (120 млн токенов). Эти варианты подходят как для небольших проектов, так и для полноценной разработки с интеграцией в IDE. Cerebras позиционирует свой сервис как решение для поддержания состояния потока программиста без ожидания генерации кода.

by nathabonfim59 • 08 ноября 2025 г. в 00:00 • 164 points

ОригиналHN

#glm#cerebras#llm#code-generation#api#web-development#ide

Комментарии (108)

  • Cerebras Code с GLM 4.6 демонстрирует высокую скорость генерации (до 1000 ток/с), что значительно ускоряет итерации, особенно для UI-разработки и рутинных задач.
  • Пользователи разделились: одни видят в скорости революцию для продуктивности ("секретное оружие"), другие скептичны, считая модель уступающей конкурентам (Claude, GPT) и сомневаясь в отсутствии квантования.
  • Практическая ценность зависит от задач: скорость критична для быстрой обратной связи в веб-разработке, но менее полезна для глубокого кодирования или нишевых областей (embedded), где важнее точность.
  • Поднимаются вопросы о реальной производительности модели, обоснованности цены ($50/мес) и устойчивости бизнес-модели, особенно при высоких затратах на токены.
  • Аппаратная реализация (гигантский чип Cerebras) объясняет скорость, но вызывает споры о влиянии на качество вывода и отсутствие независимой верификации.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

  • Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
  • Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
  • Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
    Попробовать: chat.deepseek.com

API

  • deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
  • Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

  • Рост результатов на SWE / Terminal-Bench.
  • Эффективнее многошаговые поисковые задачи.

Модель

  • База V3.1: дообучена на 840 B токенов для длинного контекста.
  • Обновлён токенайзер и шаблон чата.
  • Веса открыты: V3.1-Base, V3.1.

Цены

  • Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

ОригиналHN

#deepseek#llm#api#gguf#huggingface#fp8#nvidia#anthropic#glm

Комментарии (253)

  • Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
  • На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
  • Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
  • Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
  • Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

  • 2-3 × z.ai GLM 4.5 (≈ Claude 4)
  • 2 × Kimi K2 (багфиксер)
  • Qwen3 Coder, DeepSeek v3/r1
  • Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
  • OpenAI Playground (разрешить обучение → бесплатные токены)
  • Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
    Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

  1. Планирование в веб-чатах
    Агенты (Cline, Copilot) «тупят» от лишнего контекста.
    → Задаю вопрос в одном из бесплатных чатов, получаю решение.

  2. Генерация контекста
    AI Code Prep рекурсивно собирает файлы проекта и форматирует:

    fileName.js:
    <code>...</code>
    
    nextFile.py:
    <code>...</code>
    
  3. Исполнение
    Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

ОригиналHN

#glm#claude#kimi#qwen#deepseek#gemini#openai#amazon#ollama#lmstudio

Комментарии (219)

  • Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
  • Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
  • Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
  • Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
  • Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.