Et cela marque probablement la fin de l'ère PutnamBench pour les masters en mathématiques. Pour trouver des évaluations plus pertinentes et diversifiées, je ne vois pas vraiment d'alternative aux benchmarks synthétiques, et ce sera difficile.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.