Skip to main content
DeepSeekmultimodal-reasoningcomputer-vision

DeepSeek verlagert das Reasoning in den visuellen Bereich

DeepSeek präsentierte Thinking with Visual Primitives, ein innovativer Ansatz, bei dem das Modell durch visuelle Punkte und Boxen argumentiert, statt lange Textketten zu generieren. Für Unternehmen ist diese KI-Automatisierung entscheidend, da sie multimodale Pipelines drastisch vergünstigen und das räumliche Denken deutlich zuverlässiger machen kann.

Technischer Kontext

Ich mag genau solche Dinge: nicht einfach eine weitere bildschirmfüllende CoT, sondern der Versuch, die Mechanik des Reasonings selbst zu verändern. In „Thinking with Visual Primitives“ nutzt das Modell Punkte und Bounding Boxes als Grundeinheiten des Denkens – es „zeigt“ während der Inferenz buchstäblich auf Objekte. Für die KI-Implementierung ist das viel interessanter, als lediglich weitere Token in textbasiertes Denken zu pumpen.

Das Hauptproblem ist, dass gewöhnliches textuelles Reasoning unter einem frustrierenden „Reference Gap“ leidet. Bis das Modell mit Worten erklärt, welches kleine Objekt links vom roten Block genau gemeint ist, verliert es bereits an Präzision. Hier ist der Prozess direkt an Koordinaten gebunden, wodurch Zwischenschritte kürzer und für das Modell selbst viel verständlicher werden.

Zwei Dinge sind mir besonders aufgefallen. Erstens: Das visuelle Tracking ist direkt in den Reasoning-Trace integriert und wird nicht im Nachhinein aufgesetzt. Zweitens: Die Dokumentation erwähnt ein Komprimierungsschema für den KV-Cache, bei dem alle 4 visuellen Token zu einem einzigen Eintrag zusammengefasst werden. Das wirkt wie ein äußerst praktischer Schritt für lange multimodale Durchläufe.

Den Projektaussagen zufolge liefert dieser Ansatz starke Ergebnisse beim Zählen und räumlichen Denken bei einem geringeren Budget für Bild-Token. Ich würde hier jedoch noch keine voreiligen Schlüsse ziehen: Das Repository wurde bereits gelöscht, was bedeutet, dass wir uns auf technische Berichte und unabhängige Reproduktionen verlassen müssen statt auf schöne Tabellen. Die Richtung an sich sieht jedoch sehr vielversprechend aus, besonders angesichts der wachsenden Ermüdung durch textuelles Reasoning, das Hunderttausende von Token umfasst.

Was dies für die Automatisierung bedeutet

Der erste Vorteil liegt auf der Hand: günstigere Inferenz in Szenarien, in denen das Modell präzise sehen und nicht nur reden soll. Fotoinspektion, Objektzählung, visuelle Audits sowie die Arbeit mit Schaltplänen oder Lageraufnahmen passen hier fast perfekt.

Der zweite Punkt ist architektonischer Natur. Wenn das Reasoning an Koordinaten gebunden ist, wird die KI-Integration in Geschäftsprozesse wesentlich sauberer: Fehler lassen sich leichter debuggen, es ist klarer, an welchem Bereich des Bildes das Modell „gestolpert“ ist, und es ist einfacher, Human-in-the-loop-Systeme aufzubauen.

Wer profitiert? Teams, die mit vielen Bildern und teurer multimodaler Inferenz arbeiten. Wer verliert? Diejenigen, die hofften, alle räumlichen Aufgaben mit einem einzigen massiven LLM ohne vernünftige visuelle Logik lösen zu können.

Ich würde dies noch nicht als Revolution bezeichnen, sondern eher als einen sehr starken Schritt in die richtige Richtung. Und ja, genau an solchen Stellen endet normalerweise die Demo und die echte AI Solutions Architecture beginnt: Man muss eine Pipeline zusammenbauen, ihre Stabilität testen und die Fehlerkosten berechnen. Wenn Ihr Produkt verlangt, dass ein Modell wirklich „schaut und versteht“, anstatt das Verständnis nur durch Text zu simulieren, lassen Sie uns dies anhand Ihrer Daten analysieren. Im Nahornyi AI Lab entwickeln wir KI-Automatisierung genau dort, wo eine einzige ungenaue visuelle Referenz ansonsten zu einem teuren operativen Problem werden könnte.

Zuvor haben wir bereits die Mechanik des erweiterten Denkens und die damit verbundenen Kontextkosten am Beispiel von Claude Opus 4.6 analysiert. Das Verständnis dieser Grenzen erklärt deutlich, warum die Branche so aktiv nach einem Ersatz für lange, ressourcenintensive Textketten sucht.

Diesen Artikel teilen