Технический контекст
Я как раз люблю такие штуки: не очередной CoT на полэкрана, а попытку поменять саму механику reasoning. В Thinking with Visual Primitives модель использует точки и bounding boxes как примитивы мысли, то есть буквально «указывает» на объекты по ходу вывода. Для AI implementation это интереснее, чем просто насыпать ещё токенов в текстовое рассуждение.
Суть в том, что у обычного текстового reasoning есть дурацкий Reference Gap. Пока модель словами объясняет, какой именно маленький объект слева от красного блока она имеет в виду, она уже теряет точность. Здесь привязка идёт к координатам, поэтому промежуточные шаги становятся короче и понятнее самой модели.
Я отдельно отметил две вещи. Первая: visual tracking встроен прямо в reasoning trace, а не прикручен постфактум. Вторая: в материалах упоминается схема сжатия KV-cache, где каждые 4 visual tokens ужимаются в одну запись, и это выглядит как очень практичный ход для длинных multimodal прогонов.
По заявлениям проекта, подход даёт сильные результаты на counting и spatial reasoning при меньшем image-token бюджете. Но тут я бы не разгонялся: репозиторий уже удалён, а значит смотреть нужно на техотчёт и независимые воспроизведения, а не на красивые таблички. Само направление, впрочем, выглядит живым, особенно на фоне усталости от текстового reasoning на сотни тысяч токенов.
Что это меняет для автоматизации
Первый выигрыш очевидный: дешевле inference там, где модель должна не болтать, а точно видеть. Инспекция фото, подсчёт объектов, визуальный аудит, работа со схемами и складскими кадрами сюда ложатся почти идеально.
Второй момент уже архитектурный. Если reasoning завязан на координаты, AI integration в бизнес-процессы становится аккуратнее: проще дебажить ошибки, понятнее, на какой области кадра модель «споткнулась», легче строить human-in-the-loop.
Кто выигрывает? Команды, у которых много изображений и дорогой multimodal inference. Кто проигрывает? Те, кто надеялся закрыть spatial-задачи одним большим LLM без нормальной визуальной логики.
Я бы пока называл это не революцией, а очень крепким сдвигом в правильную сторону. И да, именно на таких штуках обычно видно, где заканчивается демо и начинается реальная AI solutions architecture: нужно собрать пайплайн, проверить устойчивость, посчитать стоимость ошибки. Если у вас в продукте модель должна реально «смотреть и понимать», а не имитировать понимание текстом, давайте разберём это на ваших данных: в Nahornyi AI Lab мы как раз строим AI automation там, где одна неточная визуальная ссылка потом превращается в дорогую операционную проблему.