Razonamiento Espejismo: los VLM adivinan en lugar de ver

En marzo de 2024, el paper MIRAGE reveló un fallo crítico: los VLM modernos pueden razonar con confianza sobre imágenes que nunca han visto. Para las empresas, es una advertencia clave. Sin una arquitectura de IA robusta, los sistemas de visión pueden parecer inteligentes pero tomar decisiones basadas en conjeturas lingüísticas.

Contexto técnico

Me enganché con el paper MIRAGE: The Illusion of Visual Understanding no por su llamativo título, sino por su conclusión tan inquietante. Los VLM pueden comportarse como si hubieran visto una imagen, aunque no se les haya proporcionado ninguna. Y no es un fallo aislado, sino un patrón de comportamiento repetible.

Los autores lo llaman razonamiento espejismo (mirage reasoning). Básicamente, el modelo no analiza la imagen, sino que continúa un patrón lingüístico probable como si hubiera habido una entrada visual. A simple vista, parece un razonamiento visual normal: describe la escena, cuenta objetos, emite diagnósticos médicos, presenta un seguro chain-of-thought.

Profundicé en los detalles y lo que más me impactó no fue la alucinación en sí, sino la calidad de esta imitación. El artículo demuestra que los VLM de frontera, en modo "finge que hay una imagen", a veces responden mejor que cuando intentan adivinar honestamente sin una imagen. Es decir, el modelo no solo fantasea, sino que activa un patrón de comportamiento distinto que se disfraza de visión.

También se presenta la métrica Mirage Score, que precisamente captura la diferencia entre estos modos. Es una jugada inteligente: en lugar de hablar de forma abstracta sobre alucinaciones, los investigadores intentan medir con qué facilidad un modelo simula la comprensión visual. Para probar los VLM, esto es, en mi opinión, mucho más útil que otro benchmark con pistas filtradas en el texto.

Esto afecta de forma especialmente dura a los escenarios médicos y de procesamiento de documentos. Si un modelo puede "ver" con seguridad una patología sin una radiografía o empezar a razonar sobre un gráfico sin ver la imagen de la tabla, entonces nuestro problema no es de interfaz, sino de la base misma de la confianza en sus resultados.

¿Qué cambia esto para las empresas y la automatización?

En resumen: una demostración vistosa de un sistema de visión ahora significa aún menos que antes. He visto muchas veces a equipos mostrar un análisis de imagen "inteligente", para luego descubrir que el modelo extrajo la mitad de la respuesta del texto adyacente, de plantillas comunes o de estadísticas del dataset. Después de MIRAGE, estos casos ya no pueden atribuirse a simples artefactos.

Para las empresas, esto es crítico dondequiera que haya un alto coste por error: facturas, almacenes, defectos de producción, medicina, casos de seguros, moderación de contenido. Si el sistema habla con confianza de lo que no ha visto, la automatización con IA se convierte en un generador de errores verosímiles.

Pierden quienes construyen un pipeline bajo el principio de "conectar el VLM a una API y listo". Ganan quienes separan las fuentes de señal: visión por un lado, OCR por otro, retrieval por otro y reglas de validación aparte. Es precisamente por eso que suelo abogar no por un único modelo mágico, sino por una arquitectura de IA adecuada donde se pueda verificar de dónde proviene cada parte de la respuesta.

Tengo la sensación de que los mejores resultados en multimodalidad a menudo no provienen de los VLM puros, sino de sistemas de sub-agentes construidos a su alrededor. Un agente extrae datos, otro verifica la existencia de la entrada, un tercero valida la salida según las reglas del dominio. Esto ya no es "le preguntamos al modelo", es un sistema de ingeniería con salvaguardas.

En Nahornyi AI Lab, así es como construimos soluciones de IA para empresas: no nos fiamos de una respuesta bonita, sino que diseñamos circuitos de verificación. A veces se necesita un fallback a CV clásico, otras una validación estricta mediante un esquema, y a veces una revisión manual si la confianza es sospechosamente alta con una señal visual débil.

Y aquí es donde comienza la verdadera implementación de IA, no la presentación. No se trata de que "el modelo puede ver", sino de que "el sistema sabe no mentir cuando no ha visto". La diferencia es enorme.

Soy Vadym Nahornyi de Nahornyi AI Lab, y analizo estas cosas no como un observador, sino como alguien que construye arquitectura de soluciones de IA y detecta fallos similares en escenarios reales. Si quieres discutir tu caso de uso de visión, encargar una automatización con IA, crear un agente de IA o montar un pipeline de n8n con validación, escríbeme. Veremos dónde tienes visión real y dónde un espejismo muy convincente.

Compartir este articulo

Twitter/X LinkedIn Telegram

Razonamiento Espejismo: los VLM adivinan en lugar de ver

Contexto técnico

¿Qué cambia esto para las empresas y la automatización?

Mas noticias

LFM2.5-8B-A1B: Cómo evitar bucles de razonamiento

Hay tuit de Altman, pero el lanzamiento aún no aparece