Skip to main content
ai-agentsclaude-codemac

20 Claude Code-Agenten auf dem Mac: Wo alles zusammenbricht

Wenn ich 20 Claude Code-Agenten gleichzeitig auf einem Mac starte, stoße ich nicht auf Magie, sondern auf Warteschlangen, Speicher und laute I/O. Für die KI-Automatisierung ist dies ein klares Signal: Ohne richtige Orchestrierung und Limits wird ein lokaler Rechner schnell zu einer instabilen Testumgebung.

Technischer Kontext

Der Satz über 20 gleichzeitig laufende Claude Code-Agenten auf einem Mac klingt genau so lange lächerlich, bis ich mir selbst CPU, Speicher und Festplatte ansehe. Dort wird sofort eine einfache Sache klar: Das Problem sind nicht die „Agenten“, sondern dass ich keine ordentliche Warteschlange, keine Parallelitätsgrenzen und keine verständliche KI-Architektur für den lokalen Betrieb habe.

Wenn ich allen Agenten erlaube, gleichzeitig zu starten, fängt die Maschine an zu stottern, anstatt zu arbeiten. Lärm, Swapping, Latenzspitzen, Konflikte im Dateisystem, Konkurrenz um Netzwerk und Kontextfenster. Besonders lustig wird es, wenn daneben ein Editor, Terminals, die Projektindizierung und noch ein paar Hintergrunddienste laufen.

Ich würde hier nicht versuchen, die Symptome manuell zu behandeln. Der grundlegende Ansatz ist: Ich setze einen Warteschlangen-Manager zwischen Aufgaben und Ausführende, beschränke die Gleichzeitigkeit nach Art der Arbeit und lagere aufwendige Schritte aus. Nicht „20 Agenten machen alles“, sondern zum Beispiel 3 für Code, 2 für Reviews, 1 für die Kontexterfassung, der Rest wartet auf einen Slot.

Wenn lokal Proxys oder lokale LLMs über Ollama verwendet werden, sollte man ohne strikte Limits besser gar nicht erst experimentieren. In der Praxis helfen OLLAMA_NUM_PARALLEL=1 und ein niedriges OLLAMA_MAX_LOADED, damit die Modelle nicht den gesamten Unified Memory fressen und das System zum Absturz bringen. Zudem zeigt die Überwachung mit `ollama ps` sofort, wer wirklich Speicher belegt und wer nur so tut, als wäre er multitaskingfähig.

Ein weiterer Punkt, bei dem ich mein Team normalerweise bremse: Nicht jeder Agent muss gleich „intelligent“ sein. Kleinere Teilaufgaben würde ich an leichtere Modelle oder sogar deterministische Logik abgeben und das teure Reasoning gezielt einsetzen. Das ist nicht mehr nur Optimierung, sondern eine normale Integration künstlicher Intelligenz, bei der Ressourcen nach dem Wert der Aufgabe verteilt werden.

Auswirkungen auf Geschäft und Automatisierung

Für das Geschäft ist die Schlussfolgerung sehr bodenständig: Viele Agenten bedeuten nicht hohe Geschwindigkeit. Ohne Warteschlange und Prioritäten erhalte ich leicht ein System, das in einer Demo beeindruckend aussieht, aber in der realen Arbeit die Zeit der Entwickler frisst und die Vorhersehbarkeit zerstört.

Gewinner sind diejenigen, die KI-Automatisierung wie eine Pipeline aufbauen: Ingest, Planning, Execution, Review, Retry. Verlierer sind diejenigen, die einfach nur Agenten vervielfachen und hoffen, dass die Hardware das schon aushält.

Im Nahornyi AI Lab löse ich solche Dinge nicht mit der Anzahl der Agenten, sondern mit der Ausführungsarchitektur: Wo ist ein lokaler Start nötig, wo ist es besser, die Inferenz auf einen separaten Knoten auszulagern, wo eine Warteschlange einzurichten und wo man das LLM ganz aus einem Schritt entfernen sollte. Wenn Ihre Prozesse bereits in einem solchen Chaos stecken, können wir den Workflow in Ruhe analysieren und die Entwicklung von KI-Lösungen so gestalten, dass das System das Team beschleunigt, anstatt auf dem Schreibtisch wie ein überhitzter Mac zu dröhnen.

Während wir uns mit der Komplexität des Betriebs zahlreicher KI-Agenten befassen, ist es erwähnenswert, wie parallele Claude Code-Agenten genutzt werden können, um Race Conditions in Pull-Requests zu erkennen. Diese praktische Anwendung unterstreicht die Bedeutung einer intelligenten Agenten-Orchestrierung, um Leistungsengpässe zu vermeiden und die Systemstabilität in verschiedenen Bereitstellungsszenarien zu gewährleisten.

Diesen Artikel teilen