“Os modelos MoE se destacam em tarefas de conhecimento de mundo, mas se equiparam aos modelos densos em raciocínio quando a perplexidade é fixa.” Intuitivamente, faz sentido, mas será que isso se aplica a MoEs mais refinados? O raciocínio é naturalmente esparso; basta combinar algumas operações de baixa ordem.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

