Así que, un modelo de nivel V3.2 en cuanto a puntos de referencia. La mitad de los parámetros y quizás el doble de tokens efectivos (23T@Muon). Los laboratorios más serios se están poniendo al día con esta metodología masiva de aprendizaje automático. Las bases de la próxima generación serán donde volveremos a ver diferencias interesantes.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.