Skip to main content
OCRVLMAI automation

Por qué los VLM fallan con las matrículas y cómo solucionarlo

En la práctica, los VLM tienen dificultades para leer números pequeños, confundiendo caracteres similares como M/N o 6/9 y rompiendo el formato de respuesta. Pero esto no es un callejón sin salida para la automatización. La solución es un pipeline de varios pasos: detectar y recortar la matrícula, identificar el formato y luego leer los caracteres por grupos.

Contexto técnico

Prefiero casos como este a las demos llamativas. En la discusión surgió algo que veo regularmente en la implementación real de IA: un modelo VLM pequeño como E4B parece "potente", pero en las matrículas de los coches confunde sistemáticamente símbolos parecidos. M y N, 6 y 9, y además a veces no mantiene la estructura de la respuesta.

Y esto no es de extrañar. Si la imagen de entrada se escala mucho, el modelo pierde físicamente los pequeños detalles. Para una matrícula esto es fatal: un trazo desaparece y la letra ya es otra.

Lo que me gustó aquí no fue la queja, sino la mentalidad de ingeniería del hilo. No intentar obtener un OCR perfecto del modelo con un solo prompt, sino construir un pipeline: primero encontrar la zona de la matrícula, luego recortarla, después determinar el país y el formato, y solo entonces leer los símbolos no todos juntos, sino por partes.

Así es exactamente como yo lo haría. Primero un bounding box o al menos una localización aproximada. Luego una pasada separada para una plantilla del tipo AA 1234 o AB 12 CD. Después, una lectura secuencial de grupos, donde el modelo no dispersa su atención por toda la imagen.

Otro punto importante: si al modelo le cuesta seguir el formato de respuesta, no hay que discutir con él en una sola solicitud. Normalmente divido la tarea en pasos y obligo a que cada paso devuelva un JSON muy específico y acotado. No es magia, es simplemente una integración de IA adecuada en lugar de esperar un "ahora sí que lo entenderá".

Un fine-tuning económico también suena lógico aquí, si tienes muchas matrículas, cámaras y países del mismo tipo. Pero yo no empezaría por ahí. Mientras no se haya construido un pipeline multifase coherente, el fine-tuning a menudo solo enmascara un problema de arquitectura.

Impacto en el negocio y la automatización

Para producción, la conclusión es simple: una sola llamada a un VLM para todo el fotograma no equivale a un OCR fiable. Si un error afecta a una barrera, una multa, un aparcamiento o la logística, se necesita un enfoque pipeline-first, y no un "el modelo multimodal universal lo hará todo solo".

Ganan los equipos que saben descomponer la tarea en etapas y medir la confianza en cada paso. Pierden aquellos que construyen un proceso crítico sobre una única respuesta en crudo del modelo.

Yo lo veo como arquitectura de soluciones de IA, no como la elección de otro modelo de moda. En Nahornyi AI Lab es precisamente lo que construimos para los clientes: dónde se necesita un recorte, dónde una validación de formato, dónde un fallback a una segunda pasada, y dónde ya realmente vale la pena construir la automatización de IA en torno a un VLM para que ahorre tiempo, en lugar de crear una verificación manual sobre otra verificación manual.

Si tienes una historia similar con documentos, números o texto pequeño en fotos, podemos revisar rápidamente tu pipeline y encontrar dónde el modelo pierde la señal. Normalmente, el problema no es una "IA mala", sino que se le dio la tarea en un trozo demasiado grande. Este es exactamente el caso en el que Nahornyi AI Lab puede construir un esquema de trabajo estable en lugar de otra demo bonita pero frágil.

Un debate relacionado sobre modelos de IA visual exploró Seedance 2, un modelo de vídeo diseñado para la generación de vídeo con IA. Comprender las realidades de producción y el valor de negocio de estos modelos visuales es crucial al evaluar nuevos pipelines de Modelos de Lenguaje Visual.

Compartir este articulo