El rendimiento es sólido en todos los ámbitos: 55,6 % en SWE-Bench Pro, 52,9 % en ARC-AGI-2 y 40,3 % en Frontier Math.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.