Résultat curieux : d'autres laboratoires collectent et entraînent leurs modèles sur cet ensemble de données, tandis qu'OpenAI ne le fait pas, ce qui a pour conséquence de dégrader les performances d'OpenAI sur ce jeu de données au fil du temps.
(retour sur les scores DeepSeek HLE)