TPUs vs. GPUs and why Google is positioned to win AI race in the long term

Google TPU возник в 2013 году из расчёта: если каждый пользователь Android задействует voice search по 3 минуты в день, компании придётся удвоить мощности дата-центров. Стандартные CPU и GPU не справлялись с матричной математикой глубокого обучения, поэтому Google создал ASIC для TensorFlow. Проект прошёл от концепта до деплоя за 15 месяцев (2013–2014), к 2015 TPU уже ускоряли Maps, Photos и Translate, а в 2016 их анонсировали на I/O.

В отличие от универсальных GPU с «багажом» (кеширование, ветвления, текстуры), TPU — доменно-специфичный чип с systolic array: данные (веса) загружаются раз, проходят через сетку умножителей без возврата в память, минимизируя Von Neumann bottleneck и HBM-доступы. Новый Ironwood усилил SparseCore для эмбеддингов (рекомендации, LLM) и расширил HBM. TPU — ключевое преимущество Google Cloud на 10 лет, с фокусом на inference; обсуждаются производство, сравнения с GPU и влияние Gemini 3.

Комментарии (260)

Google's TPUs лидируют в эффективности inference и масштабе благодаря systolic array, OCS interconnects и низкой стоимости эксплуатации по сравнению с Nvidia GPUs.
Скепсис по поводу исполнения Google: слабая экосистема (JAX/TF vs CUDA), история провалов продуктов и зависимость от ad-бизнеса.
Nvidia доминирует за счёт универсальности, CUDA и оптимизаций (NVLink, NVFP4), несмотря на "architectural baggage".
Упоминания альтернатив (Groq, Cerebras, Meta покупает TPU) и рисков: новые архитектуры AI могут устареть hardware, фокус на inference vs training.
Google имеет ресурсы для доминирования через vertical stack и cloud, но короткий "attention span" вызывает сомнения.