Novo trabalho em conjunto com @Jsevillamol e @EpochAIResearch: até que ponto grandes execuções de pré-treinamento podem ser descentralizadas e qual seria o custo? Modelamos um cluster hipotético descentralizado de 10 GW e descobrimos que o investimento adicional em infraestrutura de rede representa menos de 1% do orçamento total.
@Jsevillamol @EpochAIResearch Por que fazer isso? Um cluster monolítico único geralmente é preferível, principalmente devido à complexidade adicional de engenharia do treinamento descentralizado. Mas com 10 GW, as restrições de energia elétrica se tornam ainda mais relevantes. Interlix.com/EpochAIResearc…te distribuídos pode ajudar!
@Jsevillamol @EpochAIResearch É preciso uma conexão de alta capacidade para isso, mas o custo de instalação da fibra óptica não aumenta proporcionalmente à largura de banda total — você pode instalar vários cabos na mesma vala que já está cavando. Isso mantém o tempo de rede baixo, em x.com/EpochAIResearc…5% do tempo total de treinamento com redução total de pacotes.
@Jsevillamol @EpochAIResearch A Microsoft parece já estar seguindo essa estratégia, instalando toneladas de fibra óptica no meio-oeste americano, antecipando computação (e inferência) descentralizada em escala WAN.
@Jsevillamol @EpochAIResearch Foi interessante analisar esse cenário hipotético. Investigamos como poderíamos utilizar ativos de geração subutilizados nos EUA e encontramos uma topologia de rede mínima com a capacidade necessária de 10 GW. Leia o relatório completo aqui:
@Jsevillamol @EpochAIResearch Agradecemos a @Jsevillamol, à equipe do @EpochAIResearch e a todos os outros que contribuíram para este relatório!