Los modelos MoE son excelentes en tareas de conocimiento del mundo, pero igualan a los modelos densos en razonamiento cuando la perplejidad es fija. Intuitivamente tiene sentido, pero ¿se aplica también a métodos de estructura más detallados? El razonamiento es, por supuesto, escaso; basta con combinar algunas operaciones de bajo rango.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

