Google TPU 8: ставка на эру AI-агентов

Google анонсировала TPU восьмого поколения, разделив чипы на 8t для обучения и 8i для инференса AI-агентов. Для бизнеса это важно из-за лучшей производительности на доллар, более низких задержек и реалистичных сценариев AI automation в облаке Google, особенно для сложных агентных систем.

Технический контекст

Я посмотрел анонс Google и сразу отметил главное: они больше не продают идею одного универсального чипа. Восьмое поколение TPU сразу разделили на TPU 8t для обучения и TPU 8i для инференса. Для тех, кто занимается AI implementation и собирает агентные пайплайны, это очень здравая развилка.

TPU 8t заточен под большие тренировки. Google заявляет суперпод до 9600 чипов, 121 ExaFLOPS в native FP4 и 2 ПБ общей HBM-памяти. Плюс вдвое выше межчиповая пропускная способность относительно прошлого поколения и 19,2 Tbps scale-up, то есть они явно бьют не только по compute, но и по старой проблеме с узким местом на обмене данными.

TPU 8i мне показался даже интереснее. Там 288 ГБ HBM, 384 МБ SRAM на кристалле, отдельный Collectives Acceleration Engine и обещание до 5 раз ниже задержек на глобальных операциях. Для агентных систем, где модель не просто отвечает, а крутит несколько шагов рассуждения, дергает инструменты и держит контекст, это уже не маркетинговая мелочь, а вполне прикладная штука.

Еще один важный момент: Google явно строит вертикально собранную AI architecture вокруг своих Axion Arm CPU, NUMA, сетевой топологии Boardfly и собственной cloud-инфраструктуры. TPU 8i масштабируется до 1152 чипов, 8t до 9600, и вся история выглядит как попытка убрать две стены сразу: дорогой тренинг и тормозной инференс. Цифра про 80% better performance-per-dollar звучит агрессивно, но без открытого прайса я бы пока воспринимал это как ориентир, а не как итоговую экономику проекта.

Что это меняет для бизнеса и автоматизации

Если говорить без фанфар, выигрывают те, кто строит тяжелые мультимодальные системы и агентный инференс в Google Cloud. Особенно там, где важна не одна красивая демка, а стабильная automation with AI под нагрузкой: саппорт, аналитика, оркестрация внутренних процессов, copilots с инструментами.

Проигрывают команды, которые хотят максимальную переносимость между облаками и стеком NVIDIA/CUDA. Тут интеграция сильная, но цена за нее очевидна: плотная привязка к GCP.

На практике это толкает архитектурные решения к разделению контуров: отдельно тренировка, отдельно low-latency serving. Мы как раз такие узкие места и разбираем у клиентов в Nahornyi AI Lab: где упираемся в latency, где в стоимость шага агента, где в память, а где проблема вообще не в модели, а в кривой обвязке.

Если у вас агент уже задумывается дольше, чем сотрудник успевает сделать задачу руками, это хороший момент пересобрать систему. В Nahornyi AI Lab я помогаю сделать AI automation без лишнего железного романтизма: смотрю на ваш workflow, считаю экономику и собираю архитектуру, которая реально работает в проде.

Хотя новое железо, такое как TPU от Google, является основой для развивающегося ландшафта ИИ, практические аспекты вычислительной инфраструктуры и конфиденциальности также играют ключевую роль. Ранее мы уже обсуждали, как решения для конфиденциальных вычислений, например Cocoon от Дурова, трансформируют внедрение ИИ и решают проблемы стоимости инференса и рисков для бизнес-приватности.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Google TPU 8: ставка на эру AI-агентов

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

ИИ в госуправлении: где эффективность, а где мина

Почему Anthropic уронила Claude Code