enterrado: Nemotron ya no es solo un híbrido de Mamba2, sino que ha utilizado LatentMoE. «Al trasladar el cálculo experto enrutado y el tráfico general a todos a la espacio latente, tanto las cargas de peso por experto como las cargas útiles de comunicación se reducen en un factor de 𝑑/ℓ» ideológicamente similar a MLA
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

