Decoupled DiLoCo: обучение без диктата отстающих

DeepMind показала Decoupled DiLoCo: асинхронную схему обучения больших моделей, где медленные или упавшие узлы больше не тормозят всех. Для бизнеса это важно как сдвиг в AI architecture: дешевле использовать разнородные кластеры, WAN и нестабильные ресурсы без потери качества.

Технический контекст

Я полез в paper Decoupled DiLoCo сразу с практичным вопросом: можно ли упростить AI implementation больших тренировок там, где железо неровное, сети шумные, а синхронный барьер убивает throughput. Ответ у DeepMind получился неприятно сильный для классического SPMD: да, можно.

Схема такая: обучение режется на независимых learners, каждый делает локальные inner steps, а потом не ждет весь мир, а асинхронно шлет фрагменты параметров в центральный synchronizer. Это уже меняет игру, потому что один тормозной узел больше не ставит на паузу весь прогон.

Самое интересное не в слове asynchronous, а в трех механиках поверх него. Первая это minimum quorum: синхронизатору не нужен полный комплект обновлений, достаточно K learners, чтобы двигаться дальше. Вторая это adaptive grace window, короткое окно ожидания, где система пытается подобрать еще апдейты, если это не режет goodput.

Третья штука, на которой я отдельно завис, это dynamic token-weighted merging. Быстрые и медленные learners вносят вклад не просто тупым average, а с учетом объема токенов и геометрии обновлений через radial-directional averaging. Для гетерогенного кластера это очень здравая инженерия, а не косметика.

По цифрам paper выглядит громко. В chaos-сценариях goodput доходит до 88% против 27% у обычного data-parallel подхода, а качество модели не проседает. Для 12B-модели между четырьмя регионами США они показывают ускорение до 20x на обычных WAN-каналах 2-5 Gbps, плюс радикально режут требования к полосе.

И да, работа свежая: arXiv от 23 апреля 2026 года, то есть это не археология, а очень актуальный сигнал для всех, кто проектирует AI architecture под распределенное обучение.

Влияние на бизнес и автоматизацию

Я вижу тут три прямых последствия. Первое: можно серьезнее смотреть на обучение и дообучение моделей на разнородной инфраструктуре, включая preemptible-инстансы и геораспределенные кластеры. Второе: меньше штраф за отстающих, значит ниже реальная стоимость экспериментов.

Третье касается AI automation команд: если пайплайн обучения не разваливается от одного плохого узла, быстрее крутятся итерации над доменными моделями и агентами. Проигрывают тут в основном те, кто все еще держится за идеально ровный кластер и строит процессы вокруг синхронного барьера.

Но я бы не романтизировал. Центральный synchronizer, кворум, окна ожидания, защита от плохих апдейтов, сетевые режимы, observability, все это надо аккуратно собирать. Мы в Nahornyi AI Lab как раз решаем такие задачи для клиентов: от AI solutions architecture до build AI automation вокруг обучения, инференса и агентов, если бизнесу уже тесно в хрупкой инфраструктуре и хочется нормальную систему, а не набор надежд.

В то время как DiLoCo нацелен на устранение отстающих узлов и повышение эффективности распределенного обучения, эффективное управление параллельными операциями распространяется и на другие области. Ранее мы рассказывали, как параллельные агенты Claude Code используются для выявления гонок состояний в pull-запросах, иллюстрируя иной подход к оптимизации параллельных процессов и обеспечению качества кода.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Decoupled DiLoCo: обучение без диктата отстающих

Технический контекст

Влияние на бизнес и автоматизацию

Ещё новости

tribeV2_ViralAnalyser: хайп или полезный фильтр

Codex 0.128.0 подталкивает к автономной работе