Nouvelle étude menée en collaboration avec @Jsevillamol et @EpochAIResearch : jusqu’où peut aller la décentralisation des grands cycles de pré-entraînement, et quel en serait le coût ? Nous avons modélisé un cluster décentralisé hypothétique de 10 GW et constaté que les dépenses d’investissement supplémentaires liées au réseau représentent moins de 1 % du budget total.
@Jsevillamol @EpochAIResearch Pourquoi faire cela ? Un cluster monolithique unique est généralement préférable, notamment en raison de la complexité technique accrue liée à l’entraînement décentralisé. Mais à 10 GW, les contraintes de puissance électrique sont encore plus importantes.x.com/EpochAIResearc…ites géographiquement distribués peut s’avérer utile !
@Jsevillamol @EpochAIResearch Il faut une connexion à haut débit, mais le coût du déploiement de la fibre optique n'est pas proportionnel à la bande passante totale : on peut installer de nombreux brins dans la même tranchée. Cela permet de réduire le temps réseau, qui représente envirx.com/EpochAIResearc…înement total de notre modèle avec l'algorithme all-reduce.
@Jsevillamol @EpochAIResearch Microsoft semble déjà poursuivre une telle stratégie, en déployant des tonnes de fibre optique dans tout le Midwest en prévision d'un calcul (et d'une inférence) décentrblogs.microsoft.com/blog/2025/09/1…N.
@Jsevillamol @EpochAIResearch C'était un exercice d'hypothèse intéressant. Nous avons étudié comment utiliser les ressources de production sous-utilisées aux États-Unis et avons trouvé une topologie de réseau minimale offrant la capacité requise de 10 GW. Coepoch.ai/blog/could-dec…let ici :
@Jsevillamol @EpochAIResearch merci à @Jsevillamol et à @EpochAIResearch ainsi qu'à tous les autres contributeurs à ce rapport !