Contexte Technique
J'apprécie particulièrement ce genre d'initiative : ce n'est pas juste un autre CoT qui remplit l'écran, mais une tentative de changer la mécanique même du raisonnement. Dans "Thinking with Visual Primitives", le modèle utilise des points et des boîtes de délimitation comme unités de pensée, c'est-à-dire qu'il "pointe" littéralement les objets pendant l'inférence. Pour l'implémentation de l'IA, c'est bien plus intéressant que d'ajouter simplement d'autres tokens dans un raisonnement textuel.
Le cœur du problème est que le raisonnement textuel standard souffre d'un "Reference Gap" frustrant. Le temps que le modèle explique avec des mots quel petit objet à gauche du bloc rouge il désigne, il a déjà perdu en précision. Ici, le processus est directement lié aux coordonnées, ce qui rend les étapes intermédiaires plus courtes et plus claires pour le modèle lui-même.
J'ai noté deux choses en particulier. Premièrement : le suivi visuel est intégré nativement dans la trace de raisonnement, et non ajouté après coup. Deuxièmement : la documentation mentionne un schéma de compression du cache KV où chaque 4 tokens visuels sont compressés en une seule entrée, ce qui semble être une démarche très pratique pour les longs processus multimodaux.
Selon les déclarations du projet, l'approche donne de solides résultats en comptage et en raisonnement spatial, tout en consommant un budget de tokens d'image inférieur. Mais je ne tirerais pas de conclusions trop hâtives : le dépôt a déjà été supprimé, ce qui signifie que nous devrons nous appuyer sur le rapport technique et des reproductions indépendantes plutôt que sur de beaux tableaux. La direction elle-même semble cependant très prometteuse, surtout face à la lassitude liée au raisonnement textuel impliquant des centaines de milliers de tokens.
Ce que cela change pour l'automatisation
Le premier avantage est évident : une inférence moins coûteuse dans les scénarios où le modèle doit voir avec précision plutôt que de bavarder. L'inspection de photos, le comptage d'objets, l'audit visuel et le travail avec des schémas ou des images d'entrepôt s'y prêtent presque parfaitement.
Le deuxième point est architectural. Si le raisonnement est ancré aux coordonnées, l'intégration de l'IA dans les processus métier devient beaucoup plus propre : il est plus facile de déboguer les erreurs, plus clair de voir sur quelle zone précise de l'image le modèle a "trébuché", et plus simple de construire des systèmes human-in-the-loop.
Qui y gagne ? Les équipes traitant de gros volumes d'images et confrontées à une inférence multimodale coûteuse. Qui y perd ? Ceux qui espéraient résoudre toutes les tâches spatiales avec un seul LLM massif dépourvu de logique visuelle adéquate.
Je n'appellerais pas encore cela une révolution, mais plutôt une très forte avancée dans la bonne direction. Et oui, c'est exactement là que se termine la démo et que commence la véritable architecture de solutions IA : vous devez assembler un pipeline, tester sa résilience et calculer le coût des défaillances. Si votre produit nécessite qu'un modèle "regarde et comprenne" réellement au lieu de simuler la compréhension par du texte, analysons-le avec vos données. Chez Nahornyi AI Lab, nous construisons l'automatisation IA précisément là où une seule référence visuelle inexacte pourrait autrement se transformer en un cauchemar opérationnel coûteux.