Технический контекст
Я полез в OpenCV 5 не из любопытства, а потому что такие штуки сразу бьют в практику: AI integration и AI automation на edge теперь можно собирать без лишней прослойки из отдельных рантаймов и API. И вот тут OpenCV реально удивил.
Главное изменение не в красивом пресс-релизе, а в DNN-движке. Его пересобрали вокруг типизированного графа операций с shape inference, constant folding и fusion. За счет этого покрытие ONNX-операторов выросло примерно с 22% в ветке 4.x до более чем 80%, и вот это уже открывает дверь для современных transformer-моделей с динамическими shape.
Дальше начинается самое интересное. OpenCV 5 умеет гонять LLM и VLM прямо через привычный Net API, а не через отдельный chat-фреймворк. То есть идея примерно такая: загрузил модель, подал вход, получил inference, только теперь это уже не только детектор или сегментация, а Qwen 2.5, Gemma 3, PaliGemma и похожие истории.
Для авторегрессии добавили нативную токенизацию и KV-cache. Без этого любая попытка запустить LLM внутри классической CV-библиотеки выглядела бы как странный демо-трюк, а не рабочий путь. Здесь уже видно, что команда целится не в хайп, а в нормальный inference-контур.
Но есть важная оговорка, на которой я отдельно остановился: это не замена всему подряд и не универсальная среда для агентных систем. По текущим материалам, сборку надо делать с WITH_ONNXRUNTIME=ON, то есть зависимость от ONNX Runtime все еще остается. Просто теперь она встроена в более единый поток OpenCV, и для многих сценариев это сильно упрощает архитектуру.
Что это меняет для бизнеса и автоматизации
Я вижу тут три прямых последствия. Первое: локальные vision-пайплайны получают контекстное понимание картинки без дерганья внешнего API. Для приватных данных, производства и медицины это очень вкусно.
Второе: AI solution development для камер, терминалов, роботов и embedded-сценариев становится проще по стеку. Меньше зоопарка, меньше точек отказа, быстрее поддержка.
Третье: выиграют команды, у которых уже есть OpenCV в проде. Проиграют те, кто решит, что теперь любая LLM magically поедет внутри библиотеки без подбора ONNX-модели, сборки и тестов на железе.
Я как раз с такими стыками и вожусь постоянно: модель вроде запускается, а потом упирается в память, latency или кривой preprocessing. Если у вас назрела automation with AI поверх видео, документов или визуального контроля, можно спокойно принести это в Nahornyi AI Lab, и мы с Vadym Nahornyi соберем AI architecture под ваш реальный процесс, а не под красивый слайд.