Creo que no comprendemos el comportamiento de MoE tan grandes (particularmente con arquitecturas post-DSMoE avanzadas). Pero sabemos que el escalamiento es bueno con un 0,8% incluso con un total de aproximadamente 28 B. Y se hacen posibles formas inteligentes de explotar la escasez más allá del "grano más fino". Digo que un 1% a 10 T es *conservador*.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
