[Recommandation Open Source] Task Arena : Un projet de benchmark open source initié par l’équipe @joindimension, visant à évaluer les performances réelles des agents dans des tâches du monde réel. L'objectif principal du projet est de remédier au fait que les bancs d'essai traditionnels d'évaluation des modèles d'IA (tels que MMLU et HumanEval) se concentrent souvent sur la réponse à des questions basées sur les connaissances ou sur la génération de code simple, tandis que Task Arena se concentre davantage sur les « tâches du monde réel » que les utilisateurs font le plus souvent effectuer quotidiennement par leurs agents. • Jeu de données d'action : Permet aux agents d'utiliser concrètement des outils et de réaliser des processus en plusieurs étapes, tels que l'envoi de courriels, la planification de rendez-vous, la gestion de fichiers, la création de documents et la réalisation de recherches. • Ensemble de données de récupération : extraire et synthétiser avec précision des informations à partir d’une base de connaissances donnée, par exemple pour répondre à des questions complexes sur les spécifications des produits, les meilleures pratiques et les changements de version. Le référentiel actuel de contenu et d'échelle contient principalement deux ensembles de données JSON (environ 100 tâches au total) : • action.json : 51 suggestions de classes d’exécution, couvrant 6 grandes catégories (courriel, calendrier, document, recherche, fichier, flux de travail en plusieurs étapes). • retrieval.json : 52 paires question-réponse de type recherche, ainsi que les réponses attendues et les critères d’évaluation. Chaque tâche fournit les éléments suivants : • Des critères de réussite clairs • Guide de notation manuelle (nécessite actuellement encore un jugement manuel pour déterminer s'il est totalement réussi) Le dépôt fournit également des exemples de chargement simples en Python et TypeScript, ainsi qu'un script de calcul de score. Pourquoi est-ce considéré comme « très important » ? Dans le domaine de l'évaluation des agents, fin 2025, il est devenu de plus en plus évident qu'un score élevé en « connaissances/raisonnement » ne garantit pas nécessairement l'efficacité d'un agent dans des situations réelles. Task Arena représente un nouveau type de benchmark « axé sur la pratique » (semblable à GAIA, WebArena et AgentBench), mais plus simple, davantage centré sur les scénarios de bureau et de productivité, et entièrement piloté par la communauté. Adresse open source :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Recommandation Open Source] Task Arena : Un projet de benchmark open source initié par l’équipe @joindimension, visant](https://pbs.twimg.com/media/G6QtWgIacAERbra.jpg)