Skip to main content
prompt-engineeringllm-agentscontext-compression

Kontext für KI-Agenten ohne Qualitätsverlust komprimieren

Diese Technik der Kontextkomprimierung für LLM-Agenten basiert auf drei Säulen: Invarianten, informationsdichte Essenz und 'Zeigen, nicht erzählen'. Für Unternehmen ist dies entscheidend, da die KI-Automatisierung weniger Tokens verbraucht, seltener den Fokus verliert und bei langen Aufgaben besser den Plan einhält, was die Effizienz steigert.

Technischer Kontext

Ich bin in diese Diskussion eingestiegen, nicht wegen der schicken Formulierung, sondern weil sie sich direkt auf die Kosten und die Qualität der KI-Automatisierung auswirkt. Wenn ein Agent den ganzen Müll aus der Vergangenheit mitschleppt, denkt er nicht besser. Er macht nur teurere Fehler.

Die Idee selbst ist einfach: Bei der Komprimierung behalte ich zuerst die Invarianten, extrahiere dann die Essenz mit hoher Informationsdichte und zeige für komplexe Stellen ein Beispiel anstelle einer langen Erklärung. Das heißt, ich erzähle nicht den gesamten Plan neu, sondern bewahre das, was nicht kaputt gehen darf, was die Entscheidung jetzt direkt beeinflusst und wie genau ein gutes Ergebnis aussehen sollte.

Und hier verstehe ich beide Seiten des Streits. Wenn der Plan von Anfang an fehlerhaft ist, kann man tatsächlich Hunderte von Zeilen verworfenen Codes erhalten. Aber auch eine detaillierte Überprüfung jedes Plans kann leicht zu einer Token-Falle werden, in der der Agent den Kontext für Selbstreflexion statt für die Arbeit verbraucht.

In der Praxis würde ich zwei Schichten trennen. Die erste, dauerhafte Schicht: Ziele, Einschränkungen, architektonische Verbote, kritische Annahmen. Das sind die Invarianten. Die zweite, kurzlebige Schicht: der aktuelle Schritt, umstrittene Entscheidungen, neue Signale aus den Protokollen, Fehler, die nicht wiederholt werden dürfen.

Den Teil über die 'hohe Perplexität' lese ich aus einer Ingenieursperspektive, ohne Romantik. Man sollte nicht das 'Klugste' behalten, sondern das Seltenste und Nützlichste: einen unerwarteten Fehler, eine versteckte API-Einschränkung, einen Anforderungskonflikt, die Kosten eines Fehlers. Alles Banale wird der Agent von selbst generieren. Alles Ungewöhnliche wird er als Erstes vergessen.

Und 'Zeigen, nicht erzählen' funktioniert hervorragend in Prompts. Anstatt zu sagen 'schreibe kurz und bündig', gebe ich lieber ein Mini-Beispiel für gute Komprimierung. Das Modell erfasst das Format schneller, und ich erhalte weniger stilistische Abweichungen und weniger abstraktes Geschwafel.

Wenn man sich die Forschung zur extraktiven Komprimierung ansieht, ist die Logik dieselbe: Die Auswahl wichtiger Fragmente ist in der Regel zuverlässiger als ihre Neuformulierung in einer abstrakten Zusammenfassung. Dies ist besonders in Agentenketten bemerkbar, wo jede ungenaue Verallgemeinerung später den Plan weiter unten im Stack bricht.

Auswirkungen auf Geschäft und Automatisierung

Für die Produktion gibt es hier drei direkte Auswirkungen. Erstens: Günstigere lange Durchläufe, weil Sie Tokens ohne blindes Trimmen reduzieren. Zweitens: Weniger 'in der Mitte verloren', wenn der Agent eine kritische Tatsache irgendwo in der Mitte seiner Geschichte vergisst. Drittens: Einfachere KI-Integration in reale Prozesse, in denen der Kontext ständig verrauscht ist.

Teams mit langen Arbeitsabläufen profitieren am meisten: Entwicklung, Support, Auditing, Dokumentenverarbeitung. Diejenigen, die glauben, dass ein großes Kontextfenster allein die KI-Architektur ersetzt, verlieren.

Bei Nahornyi AI Lab stoßen wir ständig auf solche Engpässe: Wo sollen Invarianten gespeichert werden, was soll extraktiv komprimiert werden und was darf überhaupt nicht gekürzt werden. Wenn Ihr Agent bereits das Budget verbrennt, aber immer noch den Faden der Aufgabe verliert, lassen Sie uns Ihr Szenario analysieren und eine KI-Lösung entwickeln, damit das Modell endlich funktioniert, anstatt nur Tokens zu fressen.

Ein ausgezeichnetes Beispiel dafür, wie effektive Anweisungen zur Informationskomprimierung in der Praxis angewendet werden, findet sich im Bereich der KI-gestützten Zusammenfassung von Besprechungen. Wir haben bereits führende Plattformen wie tl;dv, Otter.ai, Granola und Gemini hinsichtlich ihrer Genauigkeit, Risiken und Auswirkungen auf die Geschäftsautomatisierung bei der Erstellung prägnanter Besprechungsprotokolle analysiert.

Diesen Artikel teilen