Технічний контекст
Я «залип» на роботі MIRAGE: The Illusion of Visual Understanding не через гучну назву, а через дуже неприємний висновок. VLM можуть поводитися так, ніби вони подивилися на картинку, хоча картинки не було взагалі. І це не рідкісний збій, а повторюваний режим поведінки.
Автори називають це mirage reasoning. По суті, модель не аналізує зображення, а продовжує ймовірний мовний патерн так, ніби візуальний вхід був. Зовні це виглядає як нормальне зорове міркування: опис сцени, підрахунок об'єктів, медичні висновки, впевнений chain-of-thought.
Я заглибився в деталі, і мене особливо зачепив не сам факт галюцинації, а якість цієї імітації. У статті показують, що передові VLM у режимі «вдай, що картинка є» іноді відповідають краще, ніж у режимі чесного вгадування без зображення. Тобто модель не просто фантазує, а запускає окремий патерн поведінки, який маскується під зір.
Там же фігурує метрика Mirage score, яка якраз фіксує різницю між цими режимами. Це хороший хід: замість абстрактної розмови про галюцинації дослідники намагаються виміряти, наскільки охоче модель симулює візуальне розуміння. Для тестування VLM це, на мій погляд, набагато корисніше, ніж черговий бенчмарк із витоком підказок у тексті.
Особливо жорстко це б'є по медичних та документних сценаріях. Якщо модель може без знімка впевнено «побачити» патологію або без зображення таблиці почати міркувати про графік, це означає, що в нас проблема не з інтерфейсом, а з самою основою довіри до висновку.
Що це змінює для бізнесу та автоматизації
Якщо коротко: красива демка vision-системи тепер означає ще менше, ніж раніше. Я багато разів бачив, як команда показує «розумний» розбір зображення, а потім з'ясовується, що половину відповіді модель витягує з тексту поруч, з типових шаблонів або зі статистики датасету. Після MIRAGE такі кейси вже не можна списувати на дрібні артефакти.
Для бізнесу це критично скрізь, де є ціна помилки. Інвойси, склади, дефекти на виробництві, медицина, страхові випадки, модерація контенту. Якщо система впевнено говорить про те, чого не бачила, то автоматизація за допомогою ШІ перетворюється на генератор правдоподібних помилок.
Програють ті, хто будує пайплайн за принципом «підключили VLM до API й готово». Виграють ті, хто розділяє джерела сигналу: окремо vision, окремо OCR, окремо retrieval, окремо правила валідації. Я саме тому зазвичай виступаю не за одну магічну модель, а за нормальну архітектуру ШІ, де можна перевірити, звідки взявся кожен шматок відповіді.
У мене є відчуття, що найкращі результати в мультимодальності часто дають не самі VLM у чистому вигляді, а суб-агентні системи навколо них. Один агент витягує дані, інший перевіряє наявність входу, третій валідує висновок за правилами домену. Це вже не «запитали модель», а інженерна система із запобіжниками.
Ми в Nahornyi AI Lab якраз так і збираємо ШІ-рішення для бізнесу: не віримо гарній відповіді на слово, а проєктуємо контури перевірки. Десь потрібен fallback на класичний CV, десь жорстка валідація через схему, десь ручний review, якщо confidence підозріло високий при слабкому візуальному сигналі.
І ось тут починається справжнє впровадження ШІ, а не презентація. Не «модель вміє бачити», а «система вміє не брехати, коли не побачила». Різниця величезна.
Я, Вадим Нагорний з Nahornyi AI Lab, такі штуки розбираю не як спостерігач, а як людина, яка будує архітектуру ШІ-рішень і ловить подібні збої в реальних сценаріях. Якщо хочете обговорити ваш vision-кейс, замовити ШІ-автоматизацію, створити ШІ-агента або зібрати n8n-пайплайн з валідацією, пишіть мені. Подивимося, де у вас справжній зір, а де дуже переконливий міраж.