Espero que eles 1) aprofundem muito mais em compressão e computação latente, à la ZAYA, e 2) aumentem significativamente a esparsidade, talvez abandonando completamente os MoEs, trabalhando diretamente com circuitos de mundo pequeno ou explorando algo semelhante à UT. Se não na V4, então em artigos futuros.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.