Acho que não entendemos o comportamento de MoEs tão grandes (particularmente com arquiteturas pós-DSMoE avançadas). Mas sabemos que o escalonamento é bom com 0,8% mesmo com ≈28 bilhões de elementos no total. E maneiras inteligentes de explorar a esparsidade além de um "granularidade mais fina" se tornam possíveis. Diria que 1% em 10T é *conservador*.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
