A única coisa que substituirá o MoE é um MoE melhorado. De qualquer forma, "MoE" é um termo impróprio (apesar dos esforços da DeepSeek para promover a especialização em FFN). @main_horse disse tudo: Modelos Roteados Esparsos. 1) Mais esparsidade. 2) Roteamento mais robusto e diferenciável. Eis o seu grande objetivo fundamental.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.