Skip to main content
OCRVLMAI automation

Warum VLMs bei Nummernschildern versagen und wie man es behebt

In der Praxis haben VLMs Schwierigkeiten, kleine Nummern zu lesen. Sie verwechseln oft ähnliche Zeichen wie M/N oder 6/9 und halten das Ausgabeformat nicht ein. Dies ist jedoch keine Sackgasse für die KI-Automatisierung. Die Lösung ist eine mehrstufige Pipeline: Erkennung und Zuschneiden des Nummernschildbereichs, Identifizierung des Formats und anschließendes Lesen der Zeichen in Gruppen.

Technischer Kontext

Ich mag solche Fälle mehr als beeindruckende Demos. In der Diskussion kam genau das zur Sprache, was ich regelmäßig in der realen KI-Implementierung sehe: Ein kleines VLM-Modell wie E4B scheint „leistungsstark“ zu sein, verwechselt aber bei Autokennzeichen beständig ähnliche Zeichen. M und N, 6 und 9, und außerdem hält es die Antwortstruktur nicht immer ein.

Und das ist nicht überraschend. Wenn das Eingangsbild stark herunterskaliert wird, verliert das Modell physisch kleine Details. Für ein Nummernschild ist das fatal: Ein Strich verschwindet, und der Buchstabe ist ein anderer.

Was mir hier gefallen hat, war nicht die Beschwerde, sondern die ingenieurtechnische Denkweise aus dem Thread. Nicht zu versuchen, dem Modell mit einem einzigen Prompt eine perfekte OCR abzuringen, sondern eine Pipeline aufzubauen: Zuerst den Bereich des Nummernschilds finden, dann zuschneiden, dann das Land und das Format bestimmen und erst danach die Zeichen nicht als Ganzes, sondern in Teilen lesen.

Genau so würde ich es auch machen. Zuerst eine Bounding Box oder zumindest eine grobe Lokalisierung. Dann ein separater Durchlauf für eine Vorlage wie AA 1234 oder AB 12 CD. Danach das sequenzielle Lesen von Gruppen, bei dem das Modell seine Aufmerksamkeit nicht auf das gesamte Bild verteilt.

Ein weiterer wichtiger Punkt: Wenn das Modell dem Antwortformat schlecht folgt, sollte man nicht in einer einzigen Anfrage mit ihm streiten. Ich zerlege die Aufgabe normalerweise in Schritte und zwinge jeden Schritt, ein sehr eng gefasstes JSON zurückzugeben. Das ist keine Magie, sondern einfach eine normale KI-Integration anstelle der Hoffnung „diesmal wird es schon klappen“.

Ein günstiges Fine-Tuning klingt hier auch logisch, wenn Sie viele gleichartige Nummernschilder, Kameras und Länder haben. Aber ich würde nicht damit anfangen. Solange kein klarer, mehrstufiger Prozess etabliert ist, kaschiert das Fine-Tuning oft nur ein Architekturproblem.

Auswirkungen auf Geschäft und Automatisierung

Für die Produktion ist die Schlussfolgerung einfach: Ein einziger VLM-Aufruf für das gesamte Bild ist keine zuverlässige OCR. Wenn ein Fehler eine Schranke, eine Strafe, das Parken oder die Logistik betrifft, ist ein Pipeline-First-Ansatz erforderlich und nicht die Annahme, „das universelle multimodale Modell wird alles von selbst erledigen“.

Es gewinnen die Teams, die eine Aufgabe in Phasen zerlegen und die Konfidenz bei jedem Schritt messen können. Es verlieren diejenigen, die einen kritischen Prozess auf einer einzigen rohen Antwort des Modells aufbauen.

Ich betrachte das als AI Solutions Architecture und nicht als die Wahl des nächsten angesagten Modells. Im Nahornyi AI Lab bauen wir genau solche Dinge für Kunden: Wo ist ein Zuschnitt erforderlich, wo eine Formatvalidierung, wo ein Fallback auf einen zweiten Durchlauf und wo lohnt es sich wirklich, eine KI-Automatisierung um ein VLM herum aufzubauen, damit es Zeit spart, anstatt eine manuelle Prüfung auf eine manuelle Prüfung zu setzen.

Wenn Sie eine ähnliche Geschichte mit Dokumenten, Nummern oder kleinem Text auf Fotos haben, können wir schnell Ihre Pipeline durchgehen und herausfinden, wo das Modell das Signal verliert. Normalerweise liegt das Problem nicht an einer „schlechten KI“, sondern daran, dass ihr die Aufgabe in einem zu großen Stück gegeben wurde. Das ist genau der Fall, wo das Nahornyi AI Lab ein ruhiges, funktionierendes Schema anstelle einer weiteren schönen, aber fragilen Demo aufbauen kann.

In einer verwandten Diskussion über visuelle KI-Modelle wurde Seedance 2 untersucht, ein Videomodell für die KI-Videogenerierung. Das Verständnis der Produktionsrealitäten und des Geschäftswerts solcher visuellen Modelle ist entscheidend bei der Bewertung neuer Pipelines für visuelle Sprachmodelle.

Diesen Artikel teilen