RT @shao__meng : [Nouveau benchmark pour agents de codage] cline-bench : Nouvelle initiative de benchmark open source et orientée vers le monde réel pour les agents de codage, lancée par l’équipe @cline. L’objectif principal de cette initiative est de remédier à deux problèmes majeurs dans le domaine actuel de l’évaluation des agents de codage : les benchmarks existants (tels que SWE-Bench) sont trop théoriques, manquent de crédibilité et sont facilement influencés par…
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.