Hacker News Digest

28 августа 2025 г. в 10:15 • martinalderson.com • ⭐ 378 • 💬 370

OriginalHN

#openai#anthropic#inference#cloud-computing#gpu#llm#machine-learning#cost-analysis

Are OpenAI and Anthropic losing money on inference?

  • Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
  • Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
  • Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.

Пропускная способность

  • Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
  • Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.

Цена за токен

  • Вход: $0,003/млн токенов (почти даром).
  • Выход: $3/млн токенов (реальные деньги).

Почему ограничивают контекст

  • При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
  • Поэтому Claude Code режет контекст до 200 k: дешевле.

Пользовательская экономика

  • ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.