No quiero menospreciar el trabajo de nadie, pero ¿alguien puede explicar cómo un modelo puede obtener una puntuación superior al 50% en el último examen de humanidad y aun así fallar en TODAS mis preguntas de cálculo laminar, incluidas las más fáciles que incluso gpt-oss resuelve correctamente?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.