Decoupled DiLoCo: навчання без диктату відстаючих

DeepMind представила Decoupled DiLoCo, асинхронну схему навчання великих моделей, де повільні чи несправні вузли більше не гальмують усіх. Для бізнесу це важливий зсув в AI architecture: стає дешевше використовувати гетерогенні кластери, WAN та нестабільні ресурси без втрати якості моделі.

Технічний контекст

Я заглибився в paper Decoupled DiLoCo одразу з практичним питанням: чи можна спростити AI implementation великих тренувань там, де залізо нерівномірне, мережі шумні, а синхронний бар'єр вбиває throughput. Відповідь у DeepMind вийшла неприємно сильною для класичного SPMD: так, можна.

Схема така: навчання ріжеться на незалежних learners, кожен робить локальні inner steps, а потім не чекає на весь світ, а асинхронно надсилає фрагменти параметрів у центральний synchronizer. Це вже змінює гру, тому що один повільний вузол більше не ставить на паузу весь прогін.

Найцікавіше не в слові asynchronous, а в трьох механіках поверх нього. Перша — це minimum quorum: синхронізатору не потрібен повний комплект оновлень, достатньо K learners, щоб рухатися далі. Друга — це adaptive grace window, коротке вікно очікування, де система намагається підібрати ще апдейти, якщо це не ріже goodput.

Третя річ, на якій я окремо завис, — це dynamic token-weighted merging. Швидкі та повільні learners роблять внесок не просто тупим average, а з урахуванням обсягу токенів та геометрії оновлень через radial-directional averaging. Для гетерогенного кластера це дуже розумна інженерія, а не косметика.

За цифрами paper виглядає гучно. У chaos-сценаріях goodput доходить до 88% проти 27% у звичайного data-parallel підходу, а якість моделі не просідає. Для 12B-моделі між чотирма регіонами США вони показують прискорення до 20x на звичайних WAN-каналах 2-5 Gbps, плюс радикально ріжуть вимоги до смуги пропускання.

І так, робота свіжа: arXiv від 23 квітня 2026 року, тобто це не археологія, а дуже актуальний сигнал для всіх, хто проєктує AI architecture під розподілене навчання.

Вплив на бізнес та автоматизацію

Я бачу тут три прямі наслідки. Перший: можна серйозніше дивитися на навчання та донавчання моделей на різнорідній інфраструктурі, включно з preemptible-інстансами та георозподіленими кластерами. Другий: менший штраф за відстаючих, отже, нижча реальна вартість експериментів.

Третій стосується AI automation команд: якщо пайплайн навчання не розвалюється від одного поганого вузла, швидше проходять ітерації над доменними моделями та агентами. Програють тут переважно ті, хто все ще тримається за ідеально рівний кластер і будує процеси навколо синхронного бар'єра.

Але я б не романтизував. Центральний synchronizer, кворум, вікна очікування, захист від поганих апдейтів, мережеві режими, observability — все це треба акуратно збирати. Ми в Nahornyi AI Lab якраз вирішуємо такі завдання для клієнтів: від AI solutions architecture до build AI automation навколо навчання, інференсу та агентів, якщо бізнесу вже тісно в крихкій інфраструктурі й хочеться нормальну систему, а не набір сподівань.

Хоча DiLoCo спрямований на усунення вузлів, що відстають, та підвищення ефективності розподіленого навчання, ефективне управління паралельними операціями поширюється і на інші сфери. Раніше ми розповідали, як паралельні агенти Claude Code використовуються для виявлення станів гонитви в pull-запитах, ілюструючи інший підхід до оптимізації конкурентних процесів та забезпечення якості коду.

Поділитися статтею

Twitter/X LinkedIn Telegram

Decoupled DiLoCo: навчання без диктату відстаючих

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

tribeV2_ViralAnalyser: хайп чи корисний фільтр для контенту?

Codex 0.128.0 спонукає до автономної роботи