La mayoría de las pruebas de rendimiento son pésimas, pero además la gente las malinterpreta. Por ejemplo, es fácil hacer trampa o entrenar un modelo para HLE, incluso sin querer, porque las preguntas están por toda la internet y que las respuestas sean privadas no importa realmente, ya que la gente lo resolverá y la información se difundirá. Por lo tanto, que un modelo obtenga una buena puntuación casi siempre significa que "la IA vio la respuesta". No me gusta este tipo de prueba con preguntas fijas, y creo que deja de ser útil en cuanto se populariza. O mejor dicho, lo único que miden es hasta qué punto el equipo no logró ocultar las respuestas al modelo, así que, casi siempre, una puntuación alta es una mala señal. En VPCT, todas las preguntas tienen un nivel de dificultad similar, por lo que un modelo que pasa del 10% al 90% no implica que sea sobrehumano; simplemente significa que superó ese umbral específico. Incluso ARC-AGI sufre de este problema. Por eso, a menudo, un punto de referencia se estanca en un porcentaje; normalmente, esto significa que la mayoría de las preguntas son fáciles y solo unas pocas son extremadamente difíciles (o incluso incorrectas), por lo que las IA dejan de progresar en ese punto. (No pretendo criticar el trabajo de Chase en absoluto; es una buena idea y un buen punto de referencia, pero es muy difícil construir una evaluación impecable. Quizás una versión 2 con un escalado adecuado solucionaría este defecto específico). En mis pruebas de percepción, evito esto incluyendo solo unas pocas preguntas personales en cada nivel de dificultad. Cuando una IA mejora, simplemente le planteo una pregunta más difícil. De esta manera, cuando se lanza un nuevo modelo, solo tengo que darle mis preguntas más fáciles, luego una más difícil, y así sucesivamente. Resulta muy sencillo determinar la inteligencia real del modelo. Y como solo tengo unas pocas preguntas, es fácil crear pequeñas variaciones sobre la marcha si sospecho que una IA acaba de ver la respuesta. Ojalá tuviera tiempo para hacer una evaluación
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.