X (Twitter)

[Nouveau benchmark pour agents de programmation] cline-bench : une initiative de benchmark open source récemment publiée par l’équipe @cline, basée sur des données réelles et destinée aux agents de programmation. Son objectif principal est de remédier à deux problèmes majeurs dans le domaine actuel de l’évaluation des agents de programmation : les benchmarks existants (tels que SWE-Bench) sont trop théoriques, manquent de crédibilité et sont facilement manipulables ; et il existe un manque d’environnements de haute qualité adaptés à l’apprentissage par renforcement. Pourquoi un banc d'essai en ligne droite est-il nécessaire ? Les benchmarks d'agents codés grand public actuels (tels que SWE-Bench et SWE-Bench Verified) présentent les problèmes suivants : • Les tâches sont trop statiques et simplistes : la plupart sont basées sur un seul problème GitHub et exigent que l’agent génère un correctif immédiatement, ce qui rend difficile de refléter les processus complexes d’itérations multiples, de débogage et d’utilisation d’outils dans le développement réel. • Risque élevé de contamination des données et de manipulation des scores : de nombreuses tâches se sont infiltrées dans les données d’entraînement, ce qui a pour conséquence que le modèle obtient des résultats artificiellement élevés sur le banc d’essai, mais de mauvais résultats en ingénierie réelle. • Difficile à utiliser pour l'entraînement de modèles : les benchmarks existants manquent d'environnements interactifs et ne peuvent pas être utilisés directement comme bacs à sable d'entraînement pour le RL. • Évaluation incomplète : elle ignore des indicateurs clés tels que la stabilité à long terme de l’agent dans des projets réels, la compréhension du contexte et les capacités de récupération des erreurs. L'équipe Cline estime qu'avec des modèles comme Claude Sonnet 4.5 et GPT-5.1 atteignant des scores proches de 70 à 80 % sur SWE-Bench, la simple recherche de scores élevés sur ce banc d'essai n'a plus de sens. L'industrie a besoin d'un système d'évaluation plus exigeant, réaliste et fiable pour favoriser de véritables progrès dans le développement des agents codés de nouvelle génération. La philosophie de conception fondamentale de Cline-Bench 1. Entièrement dérivé de véritables projets open-source : • Les tâches sont directement tirées de l'historique de développement réel de dépôts open source populaires (tels que Django, Matplotlib, SymPy, etc.). Cela inclut les défis concrets auxquels les ingénieurs sont confrontés dans leur travail quotidien, tels que la modification de plusieurs fichiers, les dépendances complexes, la refactorisation, l'optimisation des performances et les mises à jour de la documentation. • La difficulté des tâches est bien plus élevée que celle de SWE-Bench, et une seule tâche peut nécessiter des dizaines, voire des centaines, d'étapes d'interaction. 2. Environnement interactif haute fidélité : • Fournit des instantanés complets du dépôt Git, un émulateur de terminal et un accès au système de fichiers. • L'agent intelligent peut exécuter librement des commandes (git, pytest, pip, bash, etc.), modifier des fichiers à plusieurs reprises, exécuter des tests, visualiser les erreurs et se déboguer lui-même. • Prend en charge les dialogues et itérations à plusieurs tours, simulant fidèlement le flux de travail des développeurs humains. 3. Peut être utilisé directement pour l'apprentissage par renforcement : Chaque tâche constitue un environnement RL complet de type OpenAI Gym. Les chercheurs/entreprises peuvent l'utiliser directement pour entraîner leurs propres modèles d'agents codés (similaires aux projets d'apprentissage par renforcement codés d'AlphaCode ou d'OpenAI). 4. Mécanisme ouvert, transparent et anti-fraude : • Entièrement open source (le code, l'ensemble de données et les scripts d'évaluation sont tous accessibles au public). • Utilisez un ensemble de tests privé et des tâches régulièrement mises à jour pour éviter la pollution des données. • Encourager les communautés à contribuer à des tâches concrètes. Les principales utilisations du banc d'essai à courbe (trois valeurs majeures officiellement identifiées) 1. Évaluation fiable : Fournir aux développeurs, aux chercheurs et aux entreprises une référence de score véritablement crédible, évitant ainsi d'être induits en erreur par des chiffres marketing. 2. Alignement et entraînement du modèle : Fournit un environnement RL de haute qualité pour aider les utilisateurs à entraîner des agents codés qui fonctionnent bien dans des projets d’ingénierie du monde réel. 3. Stimuler le progrès de l'industrie : Établir un référentiel communautaire itératif en continu pour remplacer le SWE-Bench vieillissant.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil