Skip to main content
OpenCV 5LLMVLM

OpenCV 5 навчився запускати LLM та VLM всередині себе

OpenCV 5 тепер дозволяє запускати LLM та VLM прямо всередині свого DNN-модуля, використовуючи ONNX-графи, нативну токенізацію та KV-кеш. Для бізнесу це означає спрощення та прискорення інтеграції ШІ в локальні пайплайни комп'ютерного зору, зменшуючи залежність від зовнішніх API і підвищуючи безпеку даних.

Технічний контекст

Я поліз в OpenCV 5 не з цікавості, а тому що такі речі одразу б'ють в практику: AI integration та AI automation на edge тепер можна збирати без зайвого прошарку з окремих рантаймів та API. І ось тут OpenCV реально здивував.

Головна зміна не в гарному пресрелізі, а в DNN-движку. Його перебудували навколо типізованого графа операцій з shape inference, constant folding та fusion. За рахунок цього покриття ONNX-операторів зросло приблизно з 22% у гілці 4.x до понад 80%, і це вже відчиняє двері для сучасних transformer-моделей з динамічними shape.

Далі починається найцікавіше. OpenCV 5 вміє запускати LLM та VLM прямо через звичний Net API, а не через окремий chat-фреймворк. Тобто ідея приблизно така: завантажив модель, подав вхід, отримав inference, тільки тепер це вже не лише детектор або сегментація, а Qwen 2.5, Gemma 3, PaliGemma і схожі історії.

Для авторегресії додали нативну токенізацію та KV-кеш. Без цього будь-яка спроба запустити LLM всередині класичної CV-бібліотеки виглядала б як дивний демо-трюк, а не робочий шлях. Тут уже видно, що команда цілить не в хайп, а в нормальний inference-контур.

Але є важливе застереження, на якому я окремо зупинився: це не заміна всьому підряд і не універсальне середовище для агентних систем. За поточними матеріалами, збірку треба робити з WITH_ONNXRUNTIME=ON, тобто залежність від ONNX Runtime все ще залишається. Просто тепер вона вбудована в більш єдиний потік OpenCV, і для багатьох сценаріїв це сильно спрощує архітектуру.

Що це змінює для бізнесу та автоматизації

Я бачу тут три прямі наслідки. Перше: локальні vision-пайплайни отримують контекстне розуміння зображення без смикання зовнішнього API. Для приватних даних, виробництва та медицини це дуже привабливо.

Друге: AI solution development для камер, терміналів, роботів і embedded-сценаріїв стає простішим по стеку. Менше зоопарку, менше точок відмови, швидша підтримка.

Третє: виграють команди, у яких вже є OpenCV в проді. Програють ті, хто вирішить, що тепер будь-яка LLM магічно поїде всередині бібліотеки без підбору ONNX-моделі, збірки та тестів на залізі.

Я саме з такими стиками і вожуся постійно: модель начебто запускається, а потім впирається в пам'ять, latency або кривий preprocessing. Якщо у вас назріла automation with AI поверх відео, документів або візуального контролю, можна спокійно принести це в Nahornyi AI Lab, і ми з Vadym Nahornyi зберемо AI architecture під ваш реальний процес, а не під гарний слайд.

Ми раніше розглядали UX-патерн Code Map, який пришвидшує навігацію по коду завдяки точній ін'єкції AI-контексту. Цей підхід перегукується з новими можливостями OpenCV 5, де LLM та VLM вбудовуються прямо в движок комп'ютерного зору.

Поділитися статтею