Технічний контекст
Я відкрив статтю S-Agent і одразу зачепився не за гучні слова, а за зсув у самій моделі мислення агента. Раніше ми часто збирали пайплайни навколо кадрів, ембедингів і майже RAG-логіки поверх відео. Тут ідея інша: просторовий інтелект будується як накопичення свідчень про сцену в часі.
Це вже ближче до того, як я дивлюся на практичне впровадження ШІ в системах, де агенту недостатньо просто «побачити кадр». Якщо він має щось перевірити на виробництві, зрозуміти траєкторію об'єкта або пов'язати кілька ракурсів камери, покадровий підхід швидко починає брехати.
У S-Agent VLM працює як планувальник. Він не намагається одним пострілом вгадати відповідь, а вирішує, які просторові докази потрібно здобути далі. Потім ієрархія інструментів робить чорнову роботу: знаходить об'єкти в 2D, піднімає їх у 3D і збирає вже осмислені ознаки, такі як відстань, орієнтація, відносне положення та лічильні характеристики.
Мені особливо сподобалося, що автори розділяють Scene Memory і Agent Memory. Перша зберігає стан сцени, що змінюється, друга тримає контекст міркувань агента. Це важлива інженерна деталь: без такого розділення будь-який VLM-агент на довгому відео починає плутати, що він реально спостерігав, а що сам додумав крок назад.
Ще один сильний момент: підхід training-free. Тобто вони не продають ідею «давайте ще півроку дотренуємо модель», а показують, як покращити open-source і closed-source VLM через агентний шар і spatial tools. Для мене це набагато цікавіше, ніж черговий paper заради leaderboard.
По суті, це перехід від frame-level prediction до scene-centric understanding. І ось тут я реально зробив паузу: якщо лінія продовжиться, через півроку багато поточних відео-агентів виглядатимуть як OCR з гарним маркетингом.
Вплив на бізнес та автоматизацію
Для бізнесу висновок простий: зросте цінність систем, які вміють працювати з безперервним відео, кількома камерами та фізичним простором, а не просто описувати кадри. Це корисно для рітейлу, складів, безпеки, інспекції, роботики та будь-яких процесів, де важливі рух і взаємне положення об'єктів.
Програють архітектури, де «AI automation» на відео тримається на наборі скриншотів, ручних правилах і надії, що модель сама все додумає. Такі рішення дешеві на старті, але ламаються в реальних сценах, де є оклюзії, зміна ракурсу та довгий контекст.
Я б уже зараз закладав у AI solutions architecture пам'ять сцени, шар інструментів та окрему перевірку агентної безпеки. Ми в Nahornyi AI Lab якраз вирішуємо такі речі на практиці: якщо у вас відео, сенсори або multi-view потік вже впираються в стелю звичайного VLM, можна спокійно розібрати процес і зібрати AI automation під реальну задачу, а не під красиве демо.