Contexto Técnico
Particularmente me gustan este tipo de cosas: no es solo otro CoT que ocupa toda la pantalla, sino un intento de cambiar la mecánica del razonamiento en sí. En "Thinking with Visual Primitives", el modelo usa puntos y cuadros delimitadores como unidades básicas de pensamiento, es decir, literalmente "señala" objetos durante la inferencia. Para la implementación de IA, esto es mucho más interesante que simplemente añadir más tokens al razonamiento textual.
El problema es que el razonamiento textual estándar sufre de un frustrante "Reference Gap" (brecha de referencia). Para cuando el modelo explica con palabras a qué objeto pequeño a la izquierda del bloque rojo se refiere, ya pierde precisión. Aquí, el proceso está vinculado directamente a coordenadas, lo que hace que los pasos intermedios sean más cortos y claros para el propio modelo.
He destacado dos cosas en particular. Primero: el seguimiento visual está integrado de forma nativa en la traza de razonamiento, no añadido a posteriori. Segundo: la documentación menciona un esquema de compresión de la memoria caché KV donde cada 4 tokens visuales se comprimen en un solo registro, lo que parece un movimiento muy práctico para procesos multimodales largos.
Según el proyecto, este enfoque produce resultados sólidos en conteo y razonamiento espacial utilizando un presupuesto de tokens de imagen menor. Pero yo no sacaría conclusiones precipitadas todavía: el repositorio ya ha sido eliminado, lo que significa que debemos basarnos en informes técnicos y reproducciones independientes, y no en tablas atractivas. Sin embargo, la dirección en sí parece muy prometedora, especialmente ante el cansancio por el razonamiento textual que abarca cientos de miles de tokens.
Lo que esto cambia para la automatización
La primera ventaja es obvia: una inferencia más barata en escenarios donde el modelo necesita ver con precisión en lugar de charlar. La inspección de fotos, el recuento de objetos, la auditoría visual y el trabajo con esquemas o grabaciones de almacén encajan casi perfectamente aquí.
El segundo punto es arquitectónico. Si el razonamiento está anclado a coordenadas, la integración de IA en los procesos de negocio se vuelve mucho más limpia: es más fácil depurar errores, queda más claro en qué parte del fotograma "tropezó" el modelo y es más sencillo construir sistemas human-in-the-loop.
¿Quién gana? Los equipos que manejan grandes volúmenes de imágenes y enfrentan una costosa inferencia multimodal. ¿Quién pierde? Aquellos que esperaban resolver todas las tareas espaciales con un único y masivo LLM sin una lógica visual adecuada.
Yo todavía no llamaría a esto una revolución, sino un cambio muy sólido en la dirección correcta. Y sí, aquí es exactamente donde termina la demostración y comienza la arquitectura de soluciones de IA real: hay que ensamblar un pipeline, probar su resiliencia y calcular el costo de los fallos. Si tu producto requiere que un modelo realmente "vea y entienda" en lugar de simular comprensión mediante texto, analicémoslo con tus datos. En Nahornyi AI Lab, construimos automatización de IA precisamente donde una sola referencia visual inexacta puede convertirse en un costoso problema operativo.