Технический контекст
Я посмотрел анонс Google и сразу отметил главное: они больше не продают идею одного универсального чипа. Восьмое поколение TPU сразу разделили на TPU 8t для обучения и TPU 8i для инференса. Для тех, кто занимается AI implementation и собирает агентные пайплайны, это очень здравая развилка.
TPU 8t заточен под большие тренировки. Google заявляет суперпод до 9600 чипов, 121 ExaFLOPS в native FP4 и 2 ПБ общей HBM-памяти. Плюс вдвое выше межчиповая пропускная способность относительно прошлого поколения и 19,2 Tbps scale-up, то есть они явно бьют не только по compute, но и по старой проблеме с узким местом на обмене данными.
TPU 8i мне показался даже интереснее. Там 288 ГБ HBM, 384 МБ SRAM на кристалле, отдельный Collectives Acceleration Engine и обещание до 5 раз ниже задержек на глобальных операциях. Для агентных систем, где модель не просто отвечает, а крутит несколько шагов рассуждения, дергает инструменты и держит контекст, это уже не маркетинговая мелочь, а вполне прикладная штука.
Еще один важный момент: Google явно строит вертикально собранную AI architecture вокруг своих Axion Arm CPU, NUMA, сетевой топологии Boardfly и собственной cloud-инфраструктуры. TPU 8i масштабируется до 1152 чипов, 8t до 9600, и вся история выглядит как попытка убрать две стены сразу: дорогой тренинг и тормозной инференс. Цифра про 80% better performance-per-dollar звучит агрессивно, но без открытого прайса я бы пока воспринимал это как ориентир, а не как итоговую экономику проекта.
Что это меняет для бизнеса и автоматизации
Если говорить без фанфар, выигрывают те, кто строит тяжелые мультимодальные системы и агентный инференс в Google Cloud. Особенно там, где важна не одна красивая демка, а стабильная automation with AI под нагрузкой: саппорт, аналитика, оркестрация внутренних процессов, copilots с инструментами.
Проигрывают команды, которые хотят максимальную переносимость между облаками и стеком NVIDIA/CUDA. Тут интеграция сильная, но цена за нее очевидна: плотная привязка к GCP.
На практике это толкает архитектурные решения к разделению контуров: отдельно тренировка, отдельно low-latency serving. Мы как раз такие узкие места и разбираем у клиентов в Nahornyi AI Lab: где упираемся в latency, где в стоимость шага агента, где в память, а где проблема вообще не в модели, а в кривой обвязке.
Если у вас агент уже задумывается дольше, чем сотрудник успевает сделать задачу руками, это хороший момент пересобрать систему. В Nahornyi AI Lab я помогаю сделать AI automation без лишнего железного романтизма: смотрю на ваш workflow, считаю экономику и собираю архитектуру, которая реально работает в проде.