enterrado: Nemotron não é apenas um híbrido de Mamba2 agora, eles usaram LatentMoE. «Ao transferir computação especializada roteada e tráfego de todos para todos para o No espaço latente, tanto as cargas de peso por especialista quanto as cargas úteis de comunicação são reduzidas por um fator de d/ℓ» ideologicamente semelhante à MLA
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

