Технический контекст
Я внимательно разобрал спецификации IBM z17 и увидел чёткий сигнал: IBM перестал относиться к ИИ как к внешнему сервису «где-то в облаке». В z17 ускорение инференса становится частью мейнфрейма на уровне кремния — через Telum II с on-chip AI-акселератором второго поколения.
Ключевой тезис, который мне важен как архитектору: «AI at the data». IBM заявляет более 450 млрд операций инференса в день при отклике около 1 мс, и это рассчитано на работу в реальном транзакционном потоке, а не на офлайновую аналитику.
Telum II получил больше вычислительной ёмкости и кеш (заявлено +40% к размеру), а также рост производительности ML-инференса примерно на 40% относительно z16. Отдельно мне понравилась идея маршрутизации на простаивающие акселераторы — до 7,5x прироста пропускной способности за счёт использования «idle» ресурсов (до 8 ускорителей на drawer).
Второй элемент истории — IBM Spyre Accelerator, PCIe-карта, которую обещают с Q4 2025. Я читаю это как попытку закрыть разрыв между классическим инференсом для скорингов/детектов и генеративными сценариями (GenAI, LLM/SLM, мультимодальные ассистенты) прямо рядом с мейнфреймовыми данными.
Важно: речь не про «кастомные чипы под клиента», а про две аппаратные линии ускорения — интегрированную (Telum II) и подключаемую (Spyre). Под это подтягивается и системный слой: z/OS 3.2 заявлен как ОС, которая понимает аппаратно-ускоренный ИИ и гибридные сценарии.
Влияние на бизнес и автоматизацию
Если у вас банк, страхование, ритейл, гос или крупная логистика, z17 меняет экономику решений: я могу проектировать автоматизацию с помощью ИИ без обязательного «выноса» транзакционных данных в отдельный AI-контур. Это снижает задержки, упрощает соблюдение комплаенса и резко уменьшает площадь атаки.
Выигрывают команды, у которых mainframe — это не «наследие», а ядро SLA: антифрод, авторизация, лимиты, скоринг, детект аномалий, KYC-подсказки оператору. Проигрывают архитектуры, где инференс держится на цепочке ETL → витрина → модель → обратная запись: там слишком много движущихся частей и слишком много точек отказа.
Но я сразу охлаждаю ожидания: наличие ускорителя не означает, что внедрение ИИ происходит «по кнопке». В моих проектах в Nahornyi AI Lab самый дорогой этап — не железо, а согласование контуров: какие события считаются источником истины, где ставить модель в транзакции, как версионировать фичи, как откатывать решения модели без остановки бизнеса.
Для практической ИИ автоматизации я обычно раскладываю систему на четыре слоя: транзакционный контур, слой принятия решения (inference), контур наблюдаемости (latency/дрейф/качество), и контур управления рисками (политики, аудируемость, доступы). z17 делает второй слой ближе к первому, и это архитектурно выгодно.
Стратегическое видение и глубокий разбор
Мой прогноз: мейнфрейм возвращает себе роль платформы «real-time decisioning», где ИИ не отдельный продукт, а функция инфраструктуры. В 2026–2027 я ожидаю всплеск проектов, где LLM используется не для «чатбота ради чатбота», а для ускорения работы инженеров и операторов вокруг транзакций: разбор инцидентов, генерация ремедиаций, объяснение отклонений скоринга, автоматизация регламентов.
Я вижу в z17 ещё один неочевидный эффект: компании начнут считать стоимость задержки и риска вывода данных как отдельную строку бюджета. Когда инференс можно держать рядом с системой записи, меняется подход к ROI: экономия появляется не только от «лучшей модели», но и от сокращения интеграций, согласований и времени на прохождение безопасности.
В Nahornyi AI Lab я часто сталкиваюсь с тем, что у заказчика уже есть модели, но нет промышленной AI-архитектуры: нет контракта на входные фичи, нет политики деградации, нет наблюдаемости качества на проде. С z17 соблазн «просто ускорить» будет большим — и именно поэтому роль архитектуры ИИ-решений становится критичнее, а не наоборот.
Если вы думаете о Spyre под GenAI, я бы начинал не с выбора LLM, а с карты данных и сценариев: какие ответы должны быть детерминированы, где допустима вероятностная генерация, какие действия можно автоматизировать, а где нужен human-in-the-loop. Тогда аппаратное ускорение превращается в преимущество, а не в дорогую игрушку.
Этот разбор подготовил я, Вадим Нагорный — ведущий эксперт Nahornyi AI Lab по AI-архитектуре и ИИ автоматизации в реальном секторе. Если вы планируете внедрение искусственного интеллекта вокруг legacy/мейнфрейм-контуров (или хотите перенести инференс ближе к данным без потери SLA), напишите мне: я предложу целевую архитектуру, план интеграции и дорожную карту, которая проходит безопасность и эксплуатацию.