Technischer Kontext
Ich habe mich mit einer sehr praktischen Frage beschäftigt: Kann man einen lokalen DM-Assistenten auf Basis von Gemma 4 erstellen, der Quests generiert, sich eine lange Sitzung merkt und keine Cloud benötigt? Für eine solche KI-Implementierung ist meine Antwort einfach: Ja, aber nicht, indem man die gesamte Historie mit Gewalt in den Kontext lädt.
Nach dem, was ich in Benchmarks und Diskussionen sehe, laufen Gemma 4 26B-A4B und 31B bereits in llama.cpp auf RTX 3050/3060, besonders mit Quantisierung. Aber es gibt keine Magie: Selbst wenn die MoE nur etwa 4B Parameter pro Token aktiviert, ist das Modell im Speicher immer noch schwer, und ein langer Kontext beginnt, die Hardware zu überfordern.
Auf einer 3060 mit 12 GB würde ich auf eine stark komprimierte 26B-A4B oder sogar kleinere E2B/E4B-Modelle für ein stabiles lokales Szenario setzen. Auf einer 3050 mit 8 GB muss man die Erwartungen stark zurückschrauben: Die Geschwindigkeit sinkt, ein Teil der Last wird in den RAM ausgelagert, und bei langen Anfragen kommt es zu den Einfrierungen, über die sich die Benutzer beschweren.
Und hier passt für mich die populäre Idee „geben wir ihm einfach 128K oder 256K Kontext“ nicht zusammen. Auf dem Papier sieht das toll aus. In einer echten D&D-Sitzung oder einem anderen langen Spiel beginnt das Modell entweder, wichtige Details zu vergessen, oder es verschwendet zu viel Rechenleistung, um die gesamte Geschichte immer wieder neu zu verarbeiten.
Ich würde den Speicher einfacher implementieren. Keine vollwertige agentische Suche für jede Kleinigkeit, sondern eine externe Struktur, die auf den jeweiligen Anwendungsfall zugeschnitten ist: Markdown-Dateien, SQLite, ein Append-only-Ereignisprotokoll sowie kurze Zusammenfassungen nach jeder Sitzung. Dem Modell würde ich nicht die ganze Welt geben, sondern 5-15 wichtige Fakten über Charaktere, den aktuellen Handlungsbogen, aktive Quests und die neuesten Zustandsänderungen.
Wenn eine Suche erforderlich ist, löst ein lokaler FAISS- oder HNSW-Index über den Notizen bereits die Hälfte des Problems. Für einen wirklich budgetfreundlichen Modus kann man sogar ohne klassisches RAG auskommen, indem man Injektionsregeln verwendet: Wer ist wichtig, was hat sich geändert und welche Handlungspunkte dürfen nicht verletzt werden.
Was bedeutet das für Unternehmen und Automatisierung?
Meine wichtigste Erkenntnis ist: Agentische Suche ist intelligenter, aber auf schwacher Hardware nicht immer gerechtfertigt. Bei lokalen Produkten und KI-Automatisierung auf preisgünstigen PCs gewinnt oft eine einfachere, aber besser vorhersagbare Speicherarchitektur.
Gewinner sind diejenigen, die einen Assistenten für die Aufgabe entwerfen und nicht für den Hype um einen langen Kontext. Verlierer sind die Teams, die versuchen, die Architektur durch ein einziges großes Token-Fenster zu ersetzen.
Ich baue solche Kompromisse auch regelmäßig für Kunden: Ich bestimme, wo strukturierter Speicher ausreicht, wo RAG benötigt wird und wo es wirklich an der Zeit ist, eine KI-Integration mit Agenten und Werkzeugen zu entwickeln. Wenn Sie eine ähnliche Herausforderung haben und Ihr lokaler Assistent schnell, stabil und ohne Cloud-Abhängigkeit arbeiten muss, lassen Sie uns Ihr Szenario bei Nahornyi AI Lab analysieren und eine KI-Lösung ohne überflüssige Rechenleistung und dekorative Komplexität entwickeln.