Este é um ótimo tópico com alguns conceitos básicos de matemática de inferência que ajudam a discutir o quão (relativamente) acessível é o treinamento de modelos MoE. Penso que, para todas as aplicações que não sejam de uso local, os MoEs são claramente superiores.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.