Alguém deveria verificar se é um shell V3.1. Se eles finalmente conseguiram treinar MoEs em escala V3 no Ascends, isso é um grande passo. A hipótese mecanicista da última vez era que certas micro-otimizações da CANN comprometiam a precisão para os operadores, afetando o roteamento do MoE.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
