Are OpenAI and Anthropic losing money on inference?
- Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
- Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
- Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.
Пропускная способность
- Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
- Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.
Цена за токен
- Вход: $0,003/млн токенов (почти даром).
- Выход: $3/млн токенов (реальные деньги).
Почему ограничивают контекст
- При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
- Поэтому Claude Code режет контекст до 200 k: дешевле.
Пользовательская экономика
- ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.