X (Twitter)

[Interprétation du blog d'Anthropic Project] Fonctionnalités avancées d'utilisation des outils : La combinaison de trois technologies — outil de recherche d'outils, invocation d'outils programmatique et exemples d'utilisation d'outils — réduit considérablement la consommation de jetons, rend la sélection des outils plus claire et rend les invocations complexes plus précises. Anthropic a récemment lancé des fonctionnalités avancées d'utilisation d'outils sur la plateforme de développement Claude, permettant aux agents d'IA de gérer efficacement des centaines, voire des milliers d'outils, sans être limités par les fenêtres de contexte. Imaginez un agent devant utiliser simultanément des IDE, Git, Slack, GitHub, Jira ou des bases de données : traditionnellement, les définitions d'outils consomment une quantité importante de ressources, ce qui entraîne une surcharge du contexte, des erreurs de sélection d'outils ou des délais d'exécution. Ces nouvelles fonctionnalités améliorent considérablement l'ergonomie et l'évolutivité de l'agent grâce au chargement dynamique, à l'orchestration du code et à des exemples de guidage. https://t.co/RiM4CuLtgp Principaux défis et stratégies d'adaptation : La mise en place d'un système fiable d'utilisation des outils se heurte à trois difficultés majeures : Premièrement, la consommation de jetons est trop élevée : par exemple, la récupération des définitions d’outils à partir de plusieurs services (tels que GitHub et Slack) pourrait instantanément consommer plus de 50 000 jetons. Deuxièmement, le choix des outils est imprécis : des outils aux noms similaires (tels que notification-send-user et notification-send-channel) prêtent facilement à confusion. Troisièmement, le modèle d’appel est ambigu : bien que le modèle JSON normalise les paramètres, il ne permet pas d’afficher intuitivement des formats complexes, tels que les dates ou les objets imbriqués. La stratégie d'Anthropic repose sur le principe du « délai et de l'intelligence » : au lieu de charger tous les outils simultanément, elle les découvre et les invoque à la demande ; elle utilise du code plutôt que du langage naturel pour coordonner les opérations en plusieurs étapes, réduisant ainsi le nombre d'inférences ; et elle illustre l'utilisation par des exemples. Ces méthodes permettent de passer d'une description statique des outils à une exécution dynamique, aidant ainsi les agents à implémenter des flux de travail complexes dans des environnements aux ressources limitées. Trois technologies clés 1. Outil de recherche Il s'agit d'un « méta-outil » permettant aux agents de rechercher et de charger les outils pertinents à l'exécution, plutôt que de précharger toutes les définitions. Lorsque l'option `defer_loading: true` est activée, seuls les outils recherchés et quelques outils essentiels sont chargés dans le contexte initial. Les agents peuvent extraire dynamiquement les outils par nom ou description ; par exemple, lors de l'interrogation des tâches GitHub, seul `github.createPullRequest` est chargé. Avantages : Réduction du nombre de jetons jusqu’à 85 % (de 77 000 à 8 700) et amélioration significative de la précision (par exemple, Claude Opus 4 : de 49 % à 74 %). Implémentation simple : La prise en charge du chargement différé par lots de MCP est assurée par l’ajout d’une configuration de recherche au tableau d’outils. Les agents peuvent ainsi naviguer efficacement dans une vaste bibliothèque d’outils, à la manière d’un « index intelligent ». 2. Appel d'outils programmatiques Au lieu d'appeler les outils un par un en langage naturel, l'agent génère du code Python pour coordonner plusieurs outils dans un environnement isolé. Les outils doivent être marqués avec allowed_callers: ["code_execution_20250825"], et Claude produit des extraits de code contenant des boucles, des conditions et des exécutions parallèles (comme asyncio.gather). Exemple : lors de la vérification des dépassements budgétaires, le code peut récupérer en parallèle les données relatives aux membres de l’équipe, au budget et aux dépenses, et ne renvoyer à l’agent que le résultat final (tel qu’une liste de dépassements), évitant ainsi que les données intermédiaires ne polluent le contexte. Avantages : Nombre de jetons réduit de 37 % (de 43 588 à 27 297), latence diminuée (plus besoin de plusieurs itérations d’inférence) et précision accrue de 25,6 % à 28,5 % pour les tâches de recherche de connaissances. Cette solution est particulièrement adaptée au traitement de grands tableaux ou de liens API, comme l’analyse de données par lots dans Claude pour Excel. 3. Exemples d'utilisation de l'outil Complétez le modèle JSON en fournissant des exemples d'entrée illustrant les schémas d'appel réels. Par exemple, pour l'outil create_ticket, indiquez le format de date (AAAA-MM-JJ), les objets imbriqués (comme le déclarant) et les paramètres optionnels (pour les mises à niveau d'urgence). Chaque outil peut inclure 2 à 3 exemples de variantes. Avantages : La précision avec des paramètres complexes passe de 72 % à 90 %, notamment avec les formats d’identifiants ou les associations de paramètres. C’est comme fournir à l’agent un « manuel d’utilisation », lui permettant de saisir rapidement les règles implicites. Résultats expérimentaux et perspectives : Les tests internes de performance montrent des améliorations sur les benchmarks MCP et GIA : la conservation du contexte atteint 85 % et la précision globale progresse en moyenne de 10 à 20 %. Par exemple, avec des ensembles d’outils volumineux, les performances de Claude Opus 4.5 passent de 79,5 % à 88,1 %. En pratique, cette solution a déjà permis aux agents de s’intégrer facilement à des environnements tels qu’Excel ou Jira.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil