Skip to main content
distributed-trainingdeepmindai-architecture

Decoupled DiLoCo: Entrenamiento sin la Tiranía de los Rezagados

DeepMind presentó Decoupled DiLoCo, un esquema de entrenamiento asíncrono para grandes modelos donde los nodos lentos o caídos ya no frenan a todos. Para las empresas, es un cambio clave en la AI architecture: abarata el uso de clústeres heterogéneos, WAN y recursos inestables sin perder calidad.

Contexto técnico

Me sumergí en el paper de Decoupled DiLoCo con una pregunta práctica: ¿se puede simplificar la AI implementation de entrenamientos a gran escala donde el hardware es desigual, las redes son ruidosas y una barrera síncrona aniquila el throughput? La respuesta de DeepMind resultó ser desagradablemente contundente para el enfoque clásico SPMD: sí, se puede.

El esquema es el siguiente: el entrenamiento se divide entre learners independientes, cada uno realizando pasos internos locales. Luego, en lugar de esperar a todo el mundo, envían fragmentos de parámetros de forma asíncrona a un synchronizer central. Esto ya cambia las reglas del juego, porque un solo nodo lento ya no detiene toda la ejecución.

Lo más interesante no es la palabra asíncrono, sino las tres mecánicas que se construyen sobre ella. La primera es un minimum quorum: el sincronizador no necesita un conjunto completo de actualizaciones; basta con que K learners contribuyan para avanzar. La segunda es una adaptive grace window, una breve ventana de espera donde el sistema intenta recoger más actualizaciones si no perjudica el goodput.

La tercera cosa en la que me quedé pensando es la dynamic token-weighted merging. Los learners rápidos y lentos contribuyen no con un simple promedio, sino considerando el volumen de tokens y la geometría de las actualizaciones mediante un promedio radial-direccional. Para un clúster heterogéneo, esto es ingeniería muy sensata, no un mero cosmético.

Las cifras del paper son impresionantes. En escenarios de caos, el goodput alcanza hasta el 88% frente al 27% de un enfoque data-parallel estándar, y la calidad del modelo no disminuye. Para un modelo de 12B entre cuatro regiones de EE. UU., muestran una aceleración de hasta 20x en canales WAN normales de 2-5 Gbps, además de reducir radicalmente los requisitos de ancho de banda.

Y sí, el trabajo es reciente: arXiv del 23 de abril de 2026, así que no es arqueología, sino una señal muy relevante para cualquiera que diseñe AI architecture para entrenamiento distribuido.

Impacto en el negocio y la automatización

Veo tres consecuencias directas. Primero: se puede considerar más seriamente el entrenamiento y reentrenamiento de modelos en infraestructura heterogénea, incluyendo instancias preemptible y clústeres geodistribuidos. Segundo: una menor penalización por los rezagados significa un costo real más bajo para los experimentos.

La tercera concierne a los equipos de AI automation: si el pipeline de entrenamiento no se desmorona por un solo nodo defectuoso, las iteraciones sobre modelos y agentes de dominio son más rápidas. Aquí pierden principalmente aquellos que todavía se aferran a un clúster perfectamente uniforme y construyen procesos en torno a una barrera síncrona.

Pero no lo romantizaría. El synchronizer central, el quórum, las ventanas de espera, la protección contra malas actualizaciones, los modos de red, la observabilidad... todo esto debe ensamblarse con cuidado. En Nahornyi AI Lab, resolvemos precisamente este tipo de problemas para nuestros clientes: desde la AI solutions architecture hasta la build AI automation en torno al entrenamiento, la inferencia y los agentes, para cuando un negocio se siente limitado por una infraestructura frágil y desea un sistema robusto, no un conjunto de esperanzas.

Mientras que DiLoCo busca eliminar los nodos rezagados y aumentar la eficiencia en el aprendizaje distribuido, la gestión eficaz de operaciones paralelas se extiende a diversos dominios. Anteriormente cubrimos cómo se utilizan agentes paralelos de Claude Code para detectar condiciones de carrera en pull requests, ilustrando un enfoque diferente para optimizar procesos concurrentes y garantizar la calidad del código.

Compartir este articulo