Ce qui me dérange avec les "benchmarks de pointe", c'est que beaucoup d'entre eux testent l'étendue des connaissances (GPQA et HLE) et le biais centré sur l'humain (ARC AGI). Pour un modèle pré-entraîné, il s'agit principalement de tester si les ensembles de données pertinents exacts sont inclus. Cela en dit long sur la façon dont les humains perçoivent l'intelligence artificielle.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.