Технічний контекст
Я вирішив розібратися, що саме Anthropic покращила в Claude Opus 4.7, тому що для AI implementation такі оновлення вирішують не «красиву табличку», а дуже приземлену річ: чи можна нарешті довірити моделі екран, схему та кривий інтерфейс без танців з бубном.
За фактами картина така: Opus 4.7 отримав серйозний буст visual reasoning, а разом з ним і підтримку зображень до 2576 пікселів по довгій стороні, тобто приблизно 3.75 МП. Це не косметика. Коли модель бачить більше деталей, вона перестає сліпнути на дрібному тексті, UI-елементах, техсхемах та щільних діаграмах.
Anthropic також посилається на партнерські оцінки: у тестах XBOW на візуальні задачі, важливі для автономної роботи з інтерфейсами та скріншотами, Opus 4.7 показав 98.5% проти 54.5% у Opus 4.6. І ось тут я вже не відмахуюся, бо такий розрив зазвичай відчувається не лише в бенчмарку, а й у реальному налагодженні.
Окремо кумедно, що в обговоренні одразу сплив живий кейс: людина тиждень мучила Claude завданням з виправлення візуальних багів у складному алгоритмі рейтрейсингу, а потім вийшов реліз із покращеним visual reasoning. Це не доказ на рівні наукової статті, але для мене такі сигнали важливі: саме на подібних завданнях старі версії часто губилися між кодом, картинкою та логікою.
При цьому щодо цін, наскільки видно з доступних даних, змін не оголошували. Основний зсув не в прайсі, а в якості multimodal-розуміння, плюс довгий контекст до 1 млн токенів і більш важкий режим міркувань xhigh.
Що це змінює для бізнесу та автоматизації
Я бачу тут три практичні ефекти. Перший: AI integration у процеси підтримки та QA стає менш крихкою, якщо агенту треба читати скріншоти, шукати візуальні дефекти або порівнювати стани інтерфейсу.
Другий: команди, які будують automation with AI поверх внутрішніх веб-систем, отримують менше хибних інтерпретацій UI. А це вже пряме зниження вартості помилок.
Третій: складні інженерні кейси, де треба поєднати код, діаграми, рендери та логи, стають реалістичнішими для одного агента, а не зв'язки з кількох милиць.
Хто виграє? Продуктові команди, QA, SecOps, розробники агентних інтерфейсних сценаріїв. Хто програє? Усі, хто будував пайплайни на припущенні, що «візуал все одно ненадійний» і тому зацементував зайву ручну перевірку.
Я такі вузькі місця регулярно розбираю у клієнтів в Nahornyi AI Lab: де модель реально може взяти на себе екранні та multimodal-задачі, а де їй ще потрібен страхувальний контур. Якщо у вас AI automation буксує саме на інтерфейсах, скріншотах або візуальному налагодженні, можна швидко подивитися архітектуру та зібрати AI solution development без зайвого зоопарку сервісів.