Análise detalhada e de alta qualidade sobre o treinamento moderno do MoE. Isso também demonstra o quão valioso é usar um cluster grande (óbvio), se você conseguir fazer o paralelismo funcionar. Muitos problemas se tornam mais fáceis de resolver em grande escala; não se trata apenas de converter tokens em gradientes mais rapidamente.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
