Ma théorie de longue date : dès lors qu’un jeu de données est publié publiquement, il ne devrait plus jamais être utilisé comme référence. Les nouveaux modèles de pointe peuvent « progresser » simplement en collectant des données publiques sur le Web, sans aucune modification significative de leur entraînement.
En pratique, cela ne fonctionne pas car on a tendance à privilégier les évaluations obsolètes dès lors qu'elles sont « les premières ». Si vous créez une meilleure évaluation que SWE Bench, les utilisateurs continueront d'utiliser SWE Bench et vous attirerez peut-être davantage l'attention avec une nouvelle version.