Технічний контекст
Я поліз в OpenCV 5 не з цікавості, а тому що такі речі одразу б'ють в практику: AI integration та AI automation на edge тепер можна збирати без зайвого прошарку з окремих рантаймів та API. І ось тут OpenCV реально здивував.
Головна зміна не в гарному пресрелізі, а в DNN-движку. Його перебудували навколо типізованого графа операцій з shape inference, constant folding та fusion. За рахунок цього покриття ONNX-операторів зросло приблизно з 22% у гілці 4.x до понад 80%, і це вже відчиняє двері для сучасних transformer-моделей з динамічними shape.
Далі починається найцікавіше. OpenCV 5 вміє запускати LLM та VLM прямо через звичний Net API, а не через окремий chat-фреймворк. Тобто ідея приблизно така: завантажив модель, подав вхід, отримав inference, тільки тепер це вже не лише детектор або сегментація, а Qwen 2.5, Gemma 3, PaliGemma і схожі історії.
Для авторегресії додали нативну токенізацію та KV-кеш. Без цього будь-яка спроба запустити LLM всередині класичної CV-бібліотеки виглядала б як дивний демо-трюк, а не робочий шлях. Тут уже видно, що команда цілить не в хайп, а в нормальний inference-контур.
Але є важливе застереження, на якому я окремо зупинився: це не заміна всьому підряд і не універсальне середовище для агентних систем. За поточними матеріалами, збірку треба робити з WITH_ONNXRUNTIME=ON, тобто залежність від ONNX Runtime все ще залишається. Просто тепер вона вбудована в більш єдиний потік OpenCV, і для багатьох сценаріїв це сильно спрощує архітектуру.
Що це змінює для бізнесу та автоматизації
Я бачу тут три прямі наслідки. Перше: локальні vision-пайплайни отримують контекстне розуміння зображення без смикання зовнішнього API. Для приватних даних, виробництва та медицини це дуже привабливо.
Друге: AI solution development для камер, терміналів, роботів і embedded-сценаріїв стає простішим по стеку. Менше зоопарку, менше точок відмови, швидша підтримка.
Третє: виграють команди, у яких вже є OpenCV в проді. Програють ті, хто вирішить, що тепер будь-яка LLM магічно поїде всередині бібліотеки без підбору ONNX-моделі, збірки та тестів на залізі.
Я саме з такими стиками і вожуся постійно: модель начебто запускається, а потім впирається в пам'ять, latency або кривий preprocessing. Якщо у вас назріла automation with AI поверх відео, документів або візуального контролю, можна спокійно принести це в Nahornyi AI Lab, і ми з Vadym Nahornyi зберемо AI architecture під ваш реальний процес, а не під гарний слайд.