10. Juni 20263 Min. Lesezeit

OpenCV 5 lernt, LLMs und VLMs im Inneren auszuführen

OpenCV 5LLMVLM

OpenCV 5 kann jetzt LLMs und VLMs direkt im DNN-Modul ausführen – mit ONNX-Graphen, nativer Tokenisierung und KV-Cache. Für Unternehmen bedeutet das eine einfachere und schnellere KI-Integration in lokale Computer-Vision-Pipelines, weniger Abhängigkeit von externen APIs, mehr Datensicherheit und robustere Edge-AI-Lösungen.

Technischer Kontext

Ich habe mich nicht aus Neugier mit OpenCV 5 beschäftigt, sondern weil solche Dinge unmittelbar praktische Auswirkungen haben: KI-Integration und KI-Automatisierung auf Edge-Geräten lassen sich jetzt ohne zusätzliche Schichten aus separaten Laufzeitumgebungen und APIs aufbauen. Und genau da hat OpenCV mich wirklich überrascht.

Die wichtigste Änderung findet sich nicht in einer glänzenden Pressemitteilung, sondern in der DNN-Engine. Sie wurde rund um einen typisierten Operationsgraphen mit Shape-Inferenz, Constant Folding und Fusion neu aufgebaut. Dadurch stieg die Abdeckung der ONNX-Operatoren von etwa 22 % im 4.x-Zweig auf über 80 % – und das öffnet die Tür für moderne Transformer-Modelle mit dynamischen Shapes.

Dann beginnt der spannendste Teil. OpenCV 5 kann LLMs und VLMs über die vertraute Net-API ausführen, nicht über ein separates Chat-Framework. Die Idee ist ungefähr: Modell laden, Eingabe liefern, Inferenz erhalten – nur dass es jetzt nicht mehr nur ein Detektor oder eine Segmentierung ist, sondern Qwen 2.5, Gemma 3, PaliGemma und Ähnliches.

Für die Autoregression wurden native Tokenisierung und ein KV-Cache hinzugefügt. Ohne das sähe jeder Versuch, ein LLM in einer klassischen CV-Bibliothek auszuführen, wie ein seltsamer Demo-Trick aus, nicht wie ein belastbarer Weg. Hier zeigt sich bereits, dass das Team nicht auf Hype, sondern auf eine solide Inferenz-Pipeline abzielt.

Es gibt jedoch einen wichtigen Vorbehalt, auf den ich gesondert eingegangen bin: Dies ist kein Ersatz für alles und keine universelle Umgebung für agentenbasierte Systeme. Nach den aktuellen Unterlagen muss der Build mit WITH_ONNXRUNTIME=ON erfolgen, das heißt, die Abhängigkeit von der ONNX Runtime bleibt bestehen. Sie ist jetzt nur stärker in einen einheitlichen OpenCV-Ablauf integriert, was für viele Szenarien die Architektur erheblich vereinfacht.

Was das für Unternehmen und Automatisierung bedeutet

Ich sehe drei direkte Konsequenzen. Erstens: Lokale Vision-Pipelines erhalten ein kontextuelles Verständnis von Bildern, ohne externe APIs anzuzapfen. Für private Daten, Fertigung und Medizin ist das äußerst attraktiv.

Zweitens: Die Entwicklung von KI-Lösungen für Kameras, Terminals, Roboter und Embedded-Szenarien wird im gesamten Stack einfacher. Weniger Zoo, weniger Ausfallpunkte, schnellere Wartung.

Drittens: Teams, die bereits OpenCV in der Produktion einsetzen, werden profitieren. Wer annimmt, dass jetzt jedes LLM auf magische Weise in der Bibliothek läuft, ohne das passende ONNX-Modell auszuwählen, zu bauen und auf der Hardware zu testen, wird das Nachsehen haben.

Genau mit solchen Schnittstellen habe ich ständig zu tun: Ein Modell scheint zu funktionieren, läuft dann aber in Speichergrenzen, Latenz oder fehlerhafte Vorverarbeitung. Wenn Sie eine KI-Automatisierung auf Basis von Video, Dokumenten oder visueller Inspektion anstreben, können Sie das gerne zu Nahornyi AI Lab bringen, und Vadym Nahornyi und ich werden eine KI-Architektur für Ihren realen Prozess entwerfen – nicht nur für eine schicke Folie.

Wir haben zuvor das UX-Pattern Code Map untersucht, das die Code-Navigation durch präzise Injektion von KI-Kontext beschleunigt. Dieser Ansatz harmoniert mit den neuen Funktionen von OpenCV 5, bei dem LLMs und VLMs direkt in die Computer-Vision-Engine eingebettet werden.

Twitter/X LinkedIn Telegram

← Zurück zu News

OpenCV 5 lernt, LLMs und VLMs im Inneren auszuführen

Technischer Kontext

Was das für Unternehmen und Automatisierung bedeutet

Weiterlesen

PerceptionBench: Moonshot prüft, ob KI sieht

Kimi K3: Offene Gewichte und nicht nur 50B aktiv