En colaboración con @Jsevillamol y @EpochAIResearch, investigamos el grado de descentralización que pueden alcanzar las ejecuciones de preentrenamiento a gran escala y su coste. Modelamos un clúster descentralizado hipotético de 10 GW y descubrimos que el gasto de capital adicional en redes representa menos del 1 % del presupuesto total.
@Jsevillamol @EpochAIResearch ¿Por qué hacer esto? Un único clúster monolítico suele ser preferible, sobre todo por la mayor complejidad técnica que supone el entrenamiento descentralizado. Pero con 10 GW, las limitaciones de energía eléctrica son aún mayores. ¡Conectar en red sitios x.com/EpochAIResearc…mente puede ser de gran ayuda!
@Jsevillamol @EpochAIResearch Se necesita una conexión de gran capacidad para lograrlo, pero el costo de instalar fibra no aumenta proporcionalmente al ancho de banda total; se pueden instalar muchos cables en la misma zanja que ya se está excavando. Esto mantiene bajo el tiempo de prox.com/EpochAIResearc…n nuestro modelo, representa aproximadamente el 5 % del tiempo total de entrenamiento con reducción total.
@Jsevillamol @EpochAIResearch Microsoft ya parece estar siguiendo una estrategia similar, desplegando toneladas de fibra óptica en todo el medio oeste anticipándose a la computación (e inferencia) deblogs.microsoft.com/blog/2025/09/1…WAN.
@Jsevillamol @EpochAIResearch Este fue un caso hipotético interesante de analizar. Investigamos cómo podríamos utilizar recursos de generación subutilizados en todo Estados Unidos y encontramos una topología de red mínima con la capacidad requerida de 10 GW.epoch.ai/blog/could-dec…o aquí:
@Jsevillamol @EpochAIResearch ¡Gracias a @Jsevillamol, a @EpochAIResearch y a todos los demás colaboradores de este informe!