Un regalo excepcional e interesante de OpenAI. En principio, los modelos de activación dispersa con grandes dimensiones nominales son preferibles a los modelos de estructura de objetos (MOE) con sus expertos aislados de baja capacidad. Aunque la comunicación entre expertos entre capas podría ser otra vía viable.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
