Toolathlon : Teste les performances d'agents intelligents dans la gestion de tâches longues, diverses et réalistes. En se concentrant sur les flux de travail complexes et à plusieurs étapes du monde réel — des tâches souvent fastidieuses, axées sur les détails et nécessitant une intégration avec divers outils et systèmes —, ce référentiel comble une lacune dans les méthodes d'évaluation existantes, aidant les chercheurs à quantifier les différences de performance, la précision des résultats et la capacité à gérer des tâches floues entre différents modèles dans des applications pratiques. Concepts fondamentaux et mécanismes de fonctionnement Toolathlon teste l'agent à travers 108 tâches soigneusement conçues. Ces tâches simulent des scénarios professionnels courants (traitement des e-mails, gestion de fichiers, requêtes de bases de données, etc.), chacune nécessitant en moyenne plus de 20 interactions. Elles impliquent plus de 30 serveurs MCP (systèmes de messagerie, systèmes de fichiers, plateforme Hugging Face, etc.) et plus de 600 outils, incluant des API personnalisées et des interfaces standard. Contrairement aux tests effectués à partir d'un environnement vierge, les tâches débutent dans un état initial réaliste, garantissant ainsi une évaluation plus fidèle à la réalité. L'évaluation utilise une architecture d'exécution conteneurisée, isolée et parallèle, permettant de réaliser l'ensemble du test de performance en une heure et garantissant des exécutions efficaces et reproductibles. Chaque répertoire de tâches possède une structure claire, comprenant : • Module de prétraitement : paramétrage optionnel de l’environnement initial. • Module de documentation : Fournit des descriptions de tâches et des invites système. • Zone de travail initiale : État de départ local. • Espace de travail des réponses standard : utilisé pour vérifier les résultats attendus. • Module d'évaluation : Inclut des scripts (tels que main.py) qui vérifient automatiquement l'exactitude de la sortie. • Configuration des tâches : Le fichier JSON spécifie les serveurs et les outils requis. S’appuyant sur une version adaptée du framework OpenAI Agent SDK, l’agent invoque de manière autonome des outils et interagit avec le système par le biais d’invites pour réaliser une exécution de bout en bout. Caractéristiques principales La conception de Toolathlon met l'accent sur la praticité et la robustesse, avec notamment les points forts suivants : • Compatibilité multi-modèles : Prend en charge les modèles à code source fermé tels qu’OpenAI, Anthropic et Google, ainsi que les options à code source ouvert, facilitant les comparaisons entre modèles grâce à une API unifiée. • Architecture d'agent autonome : L'agent gère les tâches de manière indépendante en fonction des instructions reçues, sans intervention humaine. • Mécanisme de tolérance aux erreurs : en cas de dysfonctionnement de l'outil, celui-ci renvoie un message au lieu d'interrompre l'opération, permettant ainsi à l'IA de réessayer ou d'ajuster sa stratégie. • Traitement des fichiers longs : tronque automatiquement les réponses excessivement longues et fournit des outils de pagination/recherche pour accéder au contenu complet. • Gestion du contexte : Outils intégrés de requête, de suppression et de récupération de l’historique pour les tâches effectuées en dehors de la fenêtre de contexte du modèle. • Isolation et parallélisme : chaque tâche s’exécute dans un conteneur Docker/Podman indépendant, prenant en charge le traitement par lots pour améliorer l’évolutivité. • Vérification de l'état : Enregistrez l'espace de travail terminé et comparez-le aux résultats attendus à l'aide d'un script afin de garantir une notation objective.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
