La plupart des benchmarks sont nuls, mais en plus, les gens les interprètent mal. Par exemple, HLE est facile à manipuler, même involontairement, car les questions sont omniprésentes sur Internet et la confidentialité des réponses importe peu, puisque les gens trouveront la solution et l'information se répandra. Ainsi, un bon score pour un modèle signifie presque toujours que « l'IA a vu la réponse ». Je n'apprécie pas ce type de benchmark basé sur des questions fixes et je pense qu'il perd toute pertinence dès qu'il se popularise. En réalité, il ne mesure que l'incapacité de l'équipe à dissimuler les réponses au modèle ; par conséquent, un score élevé est souvent un mauvais signe. Sur VPCT, toutes les questions sont plus ou moins de même niveau de difficulté. Par conséquent, si un modèle passe de 10 % à 90 %, cela ne signifie pas qu'il est surhumain ; cela signifie simplement qu'il a franchi un certain seuil. Même ARC-AGI en souffre. C'est aussi pourquoi les performances d'un benchmark stagnent souvent à un certain pourcentage : généralement, cela signifie que la plupart des questions sont faciles et que quelques-unes sont extrêmement difficiles (voire erronées), et les IA cessent alors de progresser. (Je ne dénigre en aucun cas le travail de Chase ; c’est une bonne idée et un bon point de référence, mais il est très difficile de concevoir une évaluation parfaite. Une version 2 avec une mise à l’échelle appropriée corrigerait peut-être ce défaut précis.) J'évite ce problème lors de mes tests d'intelligence artificielle en n'incluant que quelques questions personnelles dans chaque niveau de difficulté. Lorsqu'une IA progresse, je lui propose simplement une question plus difficile. Ainsi, lors du lancement d'un nouveau modèle, il me suffit de lui soumettre successivement mes questions les plus faciles, puis une question plus difficile, et ainsi de suite. Il devient alors très facile d'évaluer l'intelligence réelle du modèle. De plus, le nombre restreint de questions me permet d'apporter rapidement de petites variations, si je soupçonne qu'une IA a déjà vu la réponse. J'aurais aimé avoir le temps de faire une évaluation
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.