Lo que me molesta de las "pruebas de referencia de vanguardia" es que muchas de ellas evalúan la amplitud del conocimiento (GPQA y HLE) y el sesgo antropocéntrico (ARC AGI). Para un modelo preentrenado, principalmente estás probando si se incluyen los conjuntos de datos relevantes exactos. Esto dice mucho sobre cómo los humanos perciben la inteligencia.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.