Contexte technique
Je préfère ce genre de cas aux démos tape-à-l'œil. La discussion a mis en lumière un problème que je rencontre régulièrement dans l'implémentation réelle de l'IA : un petit modèle VLM comme E4B semble « puissant », mais sur les plaques d'immatriculation, il confond systématiquement les caractères similaires. M et N, 6 et 9, et en plus, il ne respecte pas toujours la structure de la réponse.
Et ce n'est pas surprenant. Si l'image d'entrée est fortement redimensionnée, le modèle perd physiquement les petits détails. Pour une plaque d'immatriculation, c'est fatal : un trait disparaît, et la lettre change.
Ce qui m'a plu ici, ce n'est pas la plainte, mais la réflexion d'ingénieur issue du fil de discussion. Ne pas essayer d'obtenir un OCR parfait du modèle avec un seul prompt, mais construire un pipeline : d'abord trouver la zone de la plaque, puis la rogner, ensuite déterminer le pays et le format, et seulement après lire les caractères non pas en une seule fois, mais par segments.
C'est exactement comme ça que je l'aborderais. D'abord une boîte englobante (bounding box) ou au moins une localisation approximative. Ensuite, un passage séparé pour un modèle de type AA 1234 ou AB 12 CD. Enfin, une lecture séquentielle des groupes, où le modèle ne disperse pas son attention sur toute l'image.
Un autre point important : si un modèle a du mal à suivre le format de réponse, inutile de débattre avec lui en une seule requête. Je divise généralement la tâche en étapes et je force chaque étape à renvoyer un JSON très spécifique et limité. Ce n'est pas de la magie, c'est simplement une intégration IA correcte au lieu d'espérer que « cette fois, il comprendra ».
Un fine-tuning à bas coût semble également logique ici, si vous avez beaucoup de plaques, de caméras et de pays similaires. Mais je ne commencerais pas par là. Tant qu'un contour multi-étapes clair n'est pas en place, le fine-tuning ne fait souvent que masquer un problème d'architecture.
Impact sur l'entreprise et l'automatisation
Pour la production, la conclusion est simple : un seul appel VLM sur l'image entière n'équivaut pas à un OCR fiable. Si une erreur affecte une barrière, une amende, un parking ou la logistique, une approche "pipeline-first" est nécessaire, plutôt que de croire qu'un « modèle multimodal universel fera tout tout seul ».
Les équipes qui gagnent sont celles qui savent décomposer une tâche en étapes et mesurer la confiance à chaque étape. Celles qui perdent sont celles qui construisent un processus critique sur une seule réponse brute du modèle.
Je considère cela comme de l'architecture de solutions IA, et non comme le choix du prochain modèle à la mode. Chez Nahornyi AI Lab, c'est exactement ce que nous construisons pour nos clients : déterminer où un rognage est nécessaire, où une validation de format est requise, où un repli sur un second passage est utile, et où il est vraiment judicieux de construire une automatisation IA autour d'un VLM pour qu'il fasse gagner du temps, au lieu de créer une vérification manuelle par-dessus une autre.
Si vous rencontrez une situation similaire avec des documents, des numéros ou du petit texte sur des photos, nous pouvons rapidement analyser votre pipeline pour trouver où le modèle perd le signal. En général, le problème n'est pas une « mauvaise IA », mais le fait qu'on lui a confié une tâche trop vaste. C'est précisément le cas où Nahornyi AI Lab peut construire un système de travail serein et fonctionnel au lieu d'une autre démo magnifique mais fragile.