Falando nisso, suspeito que a V4 será bem diferente. A receita que conhecemos, DS-MoE, tem dois anos; eles apenas a ampliaram, mudaram o foco duas vezes (MHA => MLA => protótipo DSA), fizeram ajustes no MTP, roteamento e balanceamento de carga. Eles definitivamente são capazes de uma mudança muito maior.
Espero que eles 1) aprofundem muito mais em compressão e computação latente, à la ZAYA, e 2) aumentem significativamente a esparsidade, talvez abandonando completamente os MoEs, trabalhando diretamente com circuitos de mundo pequeno ou explorando algo semelhante à UT. Se não na V4, então em artigos futuros.