Skip to main content
DeepSeekmultimodal-reasoningcomputer-vision

DeepSeek сдвигает reasoning в сторону визуального

DeepSeek представил новый мощный подход Thinking with Visual Primitives. Теперь ИИ-модель рассуждает через визуальные точки и боксы, а не раздувает классический текстовый chain-of-thought. Для бизнеса это критически важно: такая AI-автоматизация может радикально удешевить работу сложных multimodal пайплайнов и сделать spatial reasoning заметно стабильнее.

Технический контекст

Я как раз люблю такие штуки: не очередной CoT на полэкрана, а попытку поменять саму механику reasoning. В Thinking with Visual Primitives модель использует точки и bounding boxes как примитивы мысли, то есть буквально «указывает» на объекты по ходу вывода. Для AI implementation это интереснее, чем просто насыпать ещё токенов в текстовое рассуждение.

Суть в том, что у обычного текстового reasoning есть дурацкий Reference Gap. Пока модель словами объясняет, какой именно маленький объект слева от красного блока она имеет в виду, она уже теряет точность. Здесь привязка идёт к координатам, поэтому промежуточные шаги становятся короче и понятнее самой модели.

Я отдельно отметил две вещи. Первая: visual tracking встроен прямо в reasoning trace, а не прикручен постфактум. Вторая: в материалах упоминается схема сжатия KV-cache, где каждые 4 visual tokens ужимаются в одну запись, и это выглядит как очень практичный ход для длинных multimodal прогонов.

По заявлениям проекта, подход даёт сильные результаты на counting и spatial reasoning при меньшем image-token бюджете. Но тут я бы не разгонялся: репозиторий уже удалён, а значит смотреть нужно на техотчёт и независимые воспроизведения, а не на красивые таблички. Само направление, впрочем, выглядит живым, особенно на фоне усталости от текстового reasoning на сотни тысяч токенов.

Что это меняет для автоматизации

Первый выигрыш очевидный: дешевле inference там, где модель должна не болтать, а точно видеть. Инспекция фото, подсчёт объектов, визуальный аудит, работа со схемами и складскими кадрами сюда ложатся почти идеально.

Второй момент уже архитектурный. Если reasoning завязан на координаты, AI integration в бизнес-процессы становится аккуратнее: проще дебажить ошибки, понятнее, на какой области кадра модель «споткнулась», легче строить human-in-the-loop.

Кто выигрывает? Команды, у которых много изображений и дорогой multimodal inference. Кто проигрывает? Те, кто надеялся закрыть spatial-задачи одним большим LLM без нормальной визуальной логики.

Я бы пока называл это не революцией, а очень крепким сдвигом в правильную сторону. И да, именно на таких штуках обычно видно, где заканчивается демо и начинается реальная AI solutions architecture: нужно собрать пайплайн, проверить устойчивость, посчитать стоимость ошибки. Если у вас в продукте модель должна реально «смотреть и понимать», а не имитировать понимание текстом, давайте разберём это на ваших данных: в Nahornyi AI Lab мы как раз строим AI automation там, где одна неточная визуальная ссылка потом превращается в дорогую операционную проблему.

Ранее мы уже анализировали механику расширенного мышления и сопутствующие затраты на контекст на примере Claude Opus 4.6. Понимание этих ограничений наглядно объясняет, почему индустрия так активно ищет замену длинным и ресурсоемким текстовым цепочкам.

Поделиться статьёй