Espero que 1) profundicen mucho más en la compresión y el cálculo latente, al estilo de ZAYA, y 2) aumenten significativamente la escasez, quizás eliminando por completo los MoE, trabajando directamente con circuitos de mundo pequeño o explorando algo similar a los UT. Si no en la versión 4, entonces en los próximos artículos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.