Skip to main content
OpenCV 5LLMVLM

OpenCV 5 научился гонять LLM и VLM внутри себя

OpenCV 5 добавил возможность запуска LLM и VLM прямо внутри своего DNN-модуля, используя ONNX-графы, нативную токенизацию и KV-cache. Для бизнеса это важно: интеграция ИИ в локальные пайплайны компьютерного зрения становится проще, быстрее и меньше зависит от облачных API, повышая безопасность данных.

Технический контекст

Я полез в OpenCV 5 не из любопытства, а потому что такие штуки сразу бьют в практику: AI integration и AI automation на edge теперь можно собирать без лишней прослойки из отдельных рантаймов и API. И вот тут OpenCV реально удивил.

Главное изменение не в красивом пресс-релизе, а в DNN-движке. Его пересобрали вокруг типизированного графа операций с shape inference, constant folding и fusion. За счет этого покрытие ONNX-операторов выросло примерно с 22% в ветке 4.x до более чем 80%, и вот это уже открывает дверь для современных transformer-моделей с динамическими shape.

Дальше начинается самое интересное. OpenCV 5 умеет гонять LLM и VLM прямо через привычный Net API, а не через отдельный chat-фреймворк. То есть идея примерно такая: загрузил модель, подал вход, получил inference, только теперь это уже не только детектор или сегментация, а Qwen 2.5, Gemma 3, PaliGemma и похожие истории.

Для авторегрессии добавили нативную токенизацию и KV-cache. Без этого любая попытка запустить LLM внутри классической CV-библиотеки выглядела бы как странный демо-трюк, а не рабочий путь. Здесь уже видно, что команда целится не в хайп, а в нормальный inference-контур.

Но есть важная оговорка, на которой я отдельно остановился: это не замена всему подряд и не универсальная среда для агентных систем. По текущим материалам, сборку надо делать с WITH_ONNXRUNTIME=ON, то есть зависимость от ONNX Runtime все еще остается. Просто теперь она встроена в более единый поток OpenCV, и для многих сценариев это сильно упрощает архитектуру.

Что это меняет для бизнеса и автоматизации

Я вижу тут три прямых последствия. Первое: локальные vision-пайплайны получают контекстное понимание картинки без дерганья внешнего API. Для приватных данных, производства и медицины это очень вкусно.

Второе: AI solution development для камер, терминалов, роботов и embedded-сценариев становится проще по стеку. Меньше зоопарка, меньше точек отказа, быстрее поддержка.

Третье: выиграют команды, у которых уже есть OpenCV в проде. Проиграют те, кто решит, что теперь любая LLM magically поедет внутри библиотеки без подбора ONNX-модели, сборки и тестов на железе.

Я как раз с такими стыками и вожусь постоянно: модель вроде запускается, а потом упирается в память, latency или кривой preprocessing. Если у вас назрела automation with AI поверх видео, документов или визуального контроля, можно спокойно принести это в Nahornyi AI Lab, и мы с Vadym Nahornyi соберем AI architecture под ваш реальный процесс, а не под красивый слайд.

Мы ранее рассматривали UX-паттерн Code Map, который ускоряет навигацию по коду за счёт точной инжекции AI-контекста. Этот подход перекликается с новыми возможностями OpenCV 5, где LLM и VLM встраиваются прямо в движок компьютерного зрения.

Поделиться статьёй