Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally? 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (306)
- У OpenAI десятки миллиардов долларов на кластеры GPU (по $20–40 тыс. за карту) и инфраструктуру, чего нет у обычного пользователя.
- Ключевая «фишка» — массовое батчирование запросов: одновременная обработка тысяч пользователей позволяет загружать видеопамять и вычислительные блоки почти на 100 %, тогда как дома GPU простаивает.
- Используются Mixture-of-Experts, спекулятивное декодирование, конвейерная разбивка модели по GPU и прочие оптимизации, снижающие затраты на одного пользователя.
- Большинство пользователей активны лишь доли процента времени, поэтому общая нагрузка оказывается меньше, чем кажется по 700 млн «weekly users».
- Всё это — классический эффект экономии масштаба: высокие фиксированные затраты и почти нулевые переменные на одного юзера делают запуск GPT-4 локально невыгодным.