Contexto técnico
Me metí en OpenCV 5 no por curiosidad, sino porque estas cosas impactan directamente en la práctica: la integración y automatización de IA en el borde ahora se pueden montar sin capas adicionales de runtimes y APIs separados. Y aquí OpenCV realmente me sorprendió.
El cambio principal no está en un comunicado vistoso, sino en el motor DNN. Se reconstruyó en torno a un grafo de operaciones tipificado con inferencia de formas, plegado de constantes y fusión. Gracias a esto, la cobertura de operadores ONNX pasó de aproximadamente un 22% en la rama 4.x a más del 80%, y esto abre la puerta a modelos transformer modernos con formas dinámicas.
Luego empieza lo más interesante. OpenCV 5 puede ejecutar LLMs y VLMs a través de la conocida API Net, no mediante un framework de chat separado. La idea es aproximadamente: cargar el modelo, pasar la entrada, obtener inferencia, solo que ahora ya no es solo un detector o segmentación, sino Qwen 2.5, Gemma 3, PaliGemma y similares.
Para la autorregresión, añadieron tokenización nativa y caché KV. Sin esto, cualquier intento de ejecutar un LLM dentro de una biblioteca clásica de CV parecería un truco extraño, no un camino viable. Aquí ya se ve que el equipo apunta no al hype, sino a un flujo de inferencia sólido.
Pero hay una advertencia importante en la que me detuve: esto no es un reemplazo para todo ni un entorno universal para sistemas agentivos. Según los materiales actuales, la compilación debe hacerse con WITH_ONNXRUNTIME=ON, lo que significa que todavía hay dependencia de ONNX Runtime. Simplemente ahora está integrado en un flujo más unificado de OpenCV, y para muchos escenarios esto simplifica enormemente la arquitectura.
Lo que esto significa para los negocios y la automatización
Veo tres consecuencias directas. Primera: los pipelines de visión locales obtienen una comprensión contextual de las imágenes sin recurrir a APIs externas. Para datos privados, manufactura y medicina, esto es muy atractivo.
Segunda: el desarrollo de soluciones de IA para cámaras, terminales, robots y escenarios embebidos se vuelve más sencillo en toda la pila. Menos dependencias, menos puntos de fallo, mantenimiento más rápido.
Tercera: ganan los equipos que ya tienen OpenCV en producción. Pierden los que supongan que cualquier LLM funcionará mágicamente dentro de la biblioteca sin seleccionar el modelo ONNX adecuado, compilar y probar en el hardware.
Yo precisamente me ocupo constantemente de estas intersecciones: un modelo parece funcionar, pero luego choca con límites de memoria, latencia o preprocesamiento incorrecto. Si estás pensando en automatización con IA sobre video, documentos o inspección visual, puedes traerlo con tranquilidad a Nahornyi AI Lab, y Vadym Nahornyi y yo diseñaremos una arquitectura de IA para tu proceso real, no para una diapositiva bonita.