Are OpenAI and Anthropic losing money on inference?

Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.

Пропускная способность

Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.

Цена за токен

Вход: $0,003/млн токенов (почти даром).
Выход: $3/млн токенов (реальные деньги).

Почему ограничивают контекст

При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
Поэтому Claude Code режет контекст до 200 k: дешевле.

Пользовательская экономика

ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.

Комментарии (438)

Математика статьи критикуется: расчёт пропускной способности префилла завышен минимум в 1000 раз, а достигаемая MFU превышает физический предел GPU.
Участники соглашаются, что «чистая» инференс-операция, без учёта затрат на обучение, может быть прибыльной: Сам Альтман, данные The Information и Epoch AI указывают на gross margin 50–60 %.
Основные оговорки: в расчётах не учтены downtime, кэширование, спекулятивное декодирование, KV-cache, а также различия в эффективности между DeepSeek R1 и закрытыми моделями OpenAI/Anthropic.
Некоторые стартапы (Cursor, Perplexity) уже страдают от отрицательной маржи из-за дорогих токенов, что подчеркивает разрыв между «оптовой» и «розничной» экономикой.
Общий вывод: инференс в вакууме может быть прибыльным, но полная экономика включает обучение, idle-оборудование и кросс-субсидирование, поэтому точные цифры известны только самим компаниям.