Technischer Kontext
Der Satz über 20 gleichzeitig laufende Claude Code-Agenten auf einem Mac klingt genau so lange lächerlich, bis ich mir selbst CPU, Speicher und Festplatte ansehe. Dort wird sofort eine einfache Sache klar: Das Problem sind nicht die „Agenten“, sondern dass ich keine ordentliche Warteschlange, keine Parallelitätsgrenzen und keine verständliche KI-Architektur für den lokalen Betrieb habe.
Wenn ich allen Agenten erlaube, gleichzeitig zu starten, fängt die Maschine an zu stottern, anstatt zu arbeiten. Lärm, Swapping, Latenzspitzen, Konflikte im Dateisystem, Konkurrenz um Netzwerk und Kontextfenster. Besonders lustig wird es, wenn daneben ein Editor, Terminals, die Projektindizierung und noch ein paar Hintergrunddienste laufen.
Ich würde hier nicht versuchen, die Symptome manuell zu behandeln. Der grundlegende Ansatz ist: Ich setze einen Warteschlangen-Manager zwischen Aufgaben und Ausführende, beschränke die Gleichzeitigkeit nach Art der Arbeit und lagere aufwendige Schritte aus. Nicht „20 Agenten machen alles“, sondern zum Beispiel 3 für Code, 2 für Reviews, 1 für die Kontexterfassung, der Rest wartet auf einen Slot.
Wenn lokal Proxys oder lokale LLMs über Ollama verwendet werden, sollte man ohne strikte Limits besser gar nicht erst experimentieren. In der Praxis helfen OLLAMA_NUM_PARALLEL=1 und ein niedriges OLLAMA_MAX_LOADED, damit die Modelle nicht den gesamten Unified Memory fressen und das System zum Absturz bringen. Zudem zeigt die Überwachung mit `ollama ps` sofort, wer wirklich Speicher belegt und wer nur so tut, als wäre er multitaskingfähig.
Ein weiterer Punkt, bei dem ich mein Team normalerweise bremse: Nicht jeder Agent muss gleich „intelligent“ sein. Kleinere Teilaufgaben würde ich an leichtere Modelle oder sogar deterministische Logik abgeben und das teure Reasoning gezielt einsetzen. Das ist nicht mehr nur Optimierung, sondern eine normale Integration künstlicher Intelligenz, bei der Ressourcen nach dem Wert der Aufgabe verteilt werden.
Auswirkungen auf Geschäft und Automatisierung
Für das Geschäft ist die Schlussfolgerung sehr bodenständig: Viele Agenten bedeuten nicht hohe Geschwindigkeit. Ohne Warteschlange und Prioritäten erhalte ich leicht ein System, das in einer Demo beeindruckend aussieht, aber in der realen Arbeit die Zeit der Entwickler frisst und die Vorhersehbarkeit zerstört.
Gewinner sind diejenigen, die KI-Automatisierung wie eine Pipeline aufbauen: Ingest, Planning, Execution, Review, Retry. Verlierer sind diejenigen, die einfach nur Agenten vervielfachen und hoffen, dass die Hardware das schon aushält.
Im Nahornyi AI Lab löse ich solche Dinge nicht mit der Anzahl der Agenten, sondern mit der Ausführungsarchitektur: Wo ist ein lokaler Start nötig, wo ist es besser, die Inferenz auf einen separaten Knoten auszulagern, wo eine Warteschlange einzurichten und wo man das LLM ganz aus einem Schritt entfernen sollte. Wenn Ihre Prozesse bereits in einem solchen Chaos stecken, können wir den Workflow in Ruhe analysieren und die Entwicklung von KI-Lösungen so gestalten, dass das System das Team beschleunigt, anstatt auf dem Schreibtisch wie ein überhitzter Mac zu dröhnen.