Технічний контекст
Якраз люблю такі штуки: не черговий CoT на півекрана, а спробу змінити саму механіку reasoning. У Thinking with Visual Primitives модель використовує точки та bounding boxes як примітиви думки, тобто буквально «вказує» на об'єкти під час виводу. Для AI implementation це значно цікавіше, ніж просто додати ще токенів у текстове міркування.
Суть у тому, що звичайний текстовий reasoning має неприємний Reference Gap. Поки модель словами пояснює, який саме маленький об'єкт зліва від червоного блоку вона має на увазі, вона вже втрачає точність. Тут прив'язка йде до координат, тому проміжні кроки стають коротшими та зрозумілішими самій моделі.
Я окремо відзначив дві речі. Перша: visual tracking вбудований прямо в reasoning trace, а не прикручений постфактум. Друга: у матеріалах згадується схема стиснення KV-cache, де кожні 4 візуальні токени стискаються в один запис, і це виглядає як дуже практичний хід для довгих multimodal прогонів.
За заявами проєкту, підхід дає сильні результати у counting та spatial reasoning при меншому бюджеті image-токенів. Але тут я б не поспішав: репозиторій вже видалено, а отже дивитися треба на технічний звіт та незалежні відтворення, а не на красиві таблички. Сам напрямок, утім, виглядає дуже перспективним, особливо на тлі втоми від текстового reasoning на сотні тисяч токенів.
Що це змінює для автоматизації
Перший виграш очевидний: дешевший inference там, де модель має не базікати, а точно бачити. Інспекція фото, підрахунок об'єктів, візуальний аудит, робота зі схемами та складськими кадрами сюди лягають майже ідеально.
Другий момент вже архітектурний. Якщо reasoning прив'язаний до координат, AI integration у бізнес-процеси стає акуратнішою: простіше дебажити помилки, зрозуміліше, на якій області кадру модель «спіткнулася», легше будувати human-in-the-loop.
Хто виграє? Команди, у яких багато зображень і дорогий multimodal inference. Хто програє? Ті, хто сподівався закрити spatial-задачі однією великою LLM без нормальної візуальної логіки.
Я б поки називав це не революцією, а дуже міцним зрушенням у правильний бік. І так, саме на таких штуках зазвичай видно, де закінчується демо і починається реальна AI solutions architecture: потрібно зібрати пайплайн, перевірити стійкість, порахувати вартість помилки. Якщо у вашому продукті модель повинна реально «дивитися і розуміти», а не імітувати розуміння текстом, давайте розберемо це на ваших даних: у Nahornyi AI Lab ми якраз будуємо AI automation там, де одне неточне візуальне посилання потім перетворюється на дорогу операційну проблему.