Mirage reasoning: VLM не видят, а достраивают

В марте 2024 на arXiv вышла работа MIRAGE: она показывает неприятную вещь. Современные VLM умеют уверенно рассуждать об изображениях, которых им вообще не давали. Для бизнеса это сигнал: без правильной архитектуры ИИ-решений vision-системы могут выглядеть умными, но принимать решения на языковых догадках.

Технический контекст

Я залип на работе MIRAGE: The Illusion of Visual Understanding не из-за громкого названия, а из-за очень неприятного вывода. VLM могут вести себя так, будто они посмотрели на картинку, хотя картинки не было вообще. И это не редкий сбой, а повторяемый режим поведения.

Авторы называют это mirage reasoning. По сути модель не анализирует изображение, а продолжает вероятный языковой паттерн так, словно визуальный вход был. Снаружи это выглядит как нормальное зрительное рассуждение: описание сцены, подсчёт объектов, медицинские выводы, уверенный chain-of-thought.

Я покопался в деталях, и меня особенно зацепил не сам факт галлюцинации, а качество этой имитации. В paper показывают, что frontier VLM в режиме «притворись, что картинка есть» иногда отвечают лучше, чем в режиме честного угадывания без изображения. То есть модель не просто фантазирует, а запускает отдельный паттерн поведения, который маскируется под зрение.

Там же фигурирует метрика Mirage score, которая как раз ловит разницу между этими режимами. Это хороший ход: вместо абстрактного разговора о галлюцинациях исследователи пытаются измерить, насколько охотно модель симулирует визуальное понимание. Для тестирования VLM это, на мой взгляд, намного полезнее, чем очередной бенчмарк с утечкой подсказок в тексте.

Особенно жёстко это бьёт по медицинским и документным сценариям. Если модель может без снимка уверенно «увидеть» патологию или без изображения таблицы начать рассуждать о графике, значит у нас проблема не интерфейса, а самого основания доверия к выводу.

Что это меняет для бизнеса и автоматизации

Если коротко: красивая демка vision-системы теперь значит ещё меньше, чем раньше. Я много раз видел, как команда показывает «умный» разбор изображения, а потом выясняется, что половину ответа модель вытягивает из текста рядом, из типовых шаблонов или из статистики датасета. После MIRAGE такие кейсы уже нельзя списывать на мелкие артефакты.

Для бизнеса это критично везде, где есть цена ошибки. Инвойсы, склады, дефекты на производстве, медицина, страховые кейсы, модерация контента. Если система уверенно говорит о том, чего не видела, то автоматизация с помощью ИИ превращается в генератор правдоподобных ошибок.

Проигрывают те, кто строит пайплайн по принципу «подключили VLM к API и готово». Выигрывают те, кто разделяет источники сигнала: отдельно vision, отдельно OCR, отдельно retrieval, отдельно правила валидации. Я именно поэтому обычно топлю не за одну волшебную модель, а за нормальную AI-архитектуру, где можно проверить, откуда взялся каждый кусок ответа.

У меня есть ощущение, что лучшие результаты в мультимодалке часто дают не сами VLM в чистом виде, а суб-агентные системы вокруг них. Один агент извлекает данные, другой проверяет наличие входа, третий валидирует вывод по правилам домена. Это уже не «спросили модель», а инженерная система с предохранителями.

Мы в Nahornyi AI Lab как раз так и собираем ИИ решения для бизнеса: не верим красивому ответу на слово, а проектируем контуры проверки. Где-то нужен fallback на классический CV, где-то жёсткая валидация через схему, где-то ручной review, если confidence подозрительно высокий при слабом визуальном сигнале.

И вот тут начинается настоящее внедрение ИИ, а не презентация. Не «модель умеет видеть», а «система умеет не врать, когда не увидела». Разница огромная.

Я, Вадим Нагорный из Nahornyi AI Lab, такие штуки разбираю не как наблюдатель, а как человек, который строит архитектуру ИИ-решений и ловит подобные сбои в реальных сценариях. Если хотите обсудить ваш vision-кейс, заказать ИИ автоматизацию, создать ИИ агента или собрать n8n-пайплайн с валидацией, пишите мне. Посмотрим, где у вас настоящее зрение, а где очень убедительный мираж.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Mirage reasoning: VLM не видят, а достраивают

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

Gemma 4 стала заметно практичнее на edge

364M параметров и новый шанс для on-device AI