Skip to main content
distributed-trainingdeepmindai-architecture

Decoupled DiLoCo: Training ohne das Diktat der Nachzügler

DeepMind präsentierte Decoupled DiLoCo, ein asynchrones Trainingsschema für große Modelle, bei dem langsame oder ausgefallene Knoten nicht mehr den gesamten Prozess blockieren. Für Unternehmen ist dies ein wichtiger Wandel in der AI Architecture: Es wird günstiger, heterogene Cluster, WANs und instabile Ressourcen ohne Qualitätsverlust zu nutzen.

Technischer Kontext

Ich habe mich mit einer praktischen Frage in das Paper zu Decoupled DiLoCo vertieft: Können wir die AI implementation großer Trainings vereinfachen, wo die Hardware uneinheitlich, die Netzwerke störanfällig und eine synchrone Barriere den Durchsatz zunichtemacht? Die Antwort von DeepMind fiel für den klassischen SPMD-Ansatz unangenehm deutlich aus: Ja, das geht.

Das Schema funktioniert so: Das Training wird auf unabhängige Learners aufgeteilt, von denen jeder lokale innere Schritte durchführt. Anstatt dann auf die ganze Welt zu warten, senden sie asynchron Parameterfragmente an einen zentralen Synchronizer. Das allein verändert schon das Spiel, denn ein einziger langsamer Knoten hält nicht mehr den gesamten Durchlauf an.

Das Interessanteste ist nicht das Wort „asynchron“, sondern die drei darauf aufbauenden Mechanismen. Der erste ist ein minimum quorum: Der Synchronizer benötigt keinen vollständigen Satz von Updates; es reicht, wenn K Learners beitragen, um fortzufahren. Der zweite ist ein adaptive grace window, ein kurzes Wartefenster, in dem das System versucht, weitere Updates zu sammeln, solange der Goodput nicht beeinträchtigt wird.

Die dritte Sache, bei der ich besonders hängen geblieben bin, ist das dynamic token-weighted merging. Schnelle und langsame Learners tragen nicht einfach durch einen simplen Durchschnitt bei, sondern unter Berücksichtigung des Token-Volumens und der Geometrie der Updates mittels Radial-Directional Averaging. Für einen heterogenen Cluster ist das sehr solide Ingenieurskunst und keine Kosmetik.

Die Zahlen im Paper sehen beeindruckend aus. In Chaos-Szenarien erreicht der Goodput bis zu 88 % im Vergleich zu 27 % bei einem herkömmlichen Data-Parallel-Ansatz, ohne dass die Modellqualität leidet. Für ein 12B-Modell, das über vier US-Regionen verteilt ist, zeigen sie eine bis zu 20-fache Beschleunigung auf normalen 2-5-Gbps-WAN-Kanälen und reduzieren zudem die Bandbreitenanforderungen radikal.

Und ja, die Arbeit ist frisch: arXiv vom 23. April 2026, das ist also keine Archäologie, sondern ein sehr relevantes Signal für alle, die eine AI architecture für verteiltes Training entwerfen.

Auswirkungen auf Unternehmen und Automatisierung

Ich sehe hier drei direkte Konsequenzen. Erstens: Man kann das Training und Fine-Tuning von Modellen auf heterogener Infrastruktur, einschließlich preemptible Instanzen und geoverteilten Clustern, ernsthafter in Betracht ziehen. Zweitens: Eine geringere Strafe für Nachzügler bedeutet niedrigere reale Kosten für Experimente.

Die dritte betrifft AI automation-Teams: Wenn die Trainingspipeline nicht wegen eines einzigen fehlerhaften Knotens zusammenbricht, können Iterationen an domänenspezifischen Modellen und Agenten schneller durchgeführt werden. Die Verlierer sind hier hauptsächlich diejenigen, die immer noch an einem perfekt einheitlichen Cluster festhalten und ihre Prozesse um eine synchrone Barriere herum aufbauen.

Aber ich würde das nicht romantisieren. Der zentrale Synchronizer, das Quorum, die Wartefenster, der Schutz vor schlechten Updates, die Netzwerkmodi, die Observability – all das muss sorgfältig zusammengesetzt werden. Bei Nahornyi AI Lab lösen wir genau solche Probleme für unsere Kunden: von der AI solutions architecture bis zum Aufbau von AI automation rund um Training, Inferenz und Agenten, wenn ein Unternehmen durch eine fragile Infrastruktur eingeschränkt ist und ein robustes System statt nur einer Reihe von Hoffnungen wünscht.

Während DiLoCo darauf abzielt, Nachzügler zu eliminieren und die Effizienz beim verteilten Lernen zu steigern, erstreckt sich die effektive Verwaltung paralleler Operationen auf verschiedene Bereiche. Wir haben bereits darüber berichtet, wie parallele Claude-Code-Agenten eingesetzt werden, um Race Conditions in Pull-Requests zu erkennen, was einen anderen Ansatz zur Optimierung konkurrierender Prozesse und zur Gewährleistung der Codequalität darstellt.

Diesen Artikel teilen