X (Twitter)

[Blog d'ingénierie anthropique] Réaliser l'exécution de code via MCP : Créer des agents d'IA plus efficaces – Tirer parti des compétences de l'IA en matière de codage pour permettre aux agents de travailler comme des programmeurs, plutôt que de s'appuyer sur des modèles inefficaces « appel d'outil – attente – rappel ». questions fondamentales MCP est une norme ouverte permettant de connecter des agents d'IA à des systèmes externes. Depuis son lancement il y a un an, la communauté a développé des milliers de serveurs MCP. Cependant, la multiplication des outils de connectivité a fait émerger deux problèmes majeurs d'efficacité : 1. Les définitions d'outils consomment trop de contexte : lorsqu'un agent se connecte à des milliers d'outils, l'approche traditionnelle charge simultanément toutes les définitions d'outils dans la fenêtre de contexte. Ces descriptions d'outils peuvent consommer des centaines de milliers de jetons avant que l'agent ne traite la requête. 2. Transferts répétés de résultats intermédiaires : lorsque les agents doivent transférer des données entre outils (par exemple, télécharger un compte rendu de réunion depuis Google Drive et l’ajouter à des enregistrements Salesforce), l’intégralité des données doit transiter par le modèle à plusieurs reprises. La transcription d’une réunion de deux heures peut consommer jusqu’à 50 000 jetons supplémentaires, et les documents volumineux peuvent même dépasser la limite de la fenêtre de contexte. Solution : Exécution de code + MCP L'idée principale est de présenter le serveur MCP comme une API de code, plutôt que comme un appel d'outil direct. Les agents interagissent avec le serveur MCP en écrivant du code. La méthode d'implémentation génère une structure arborescente de fichiers pour tous les outils disponibles, par exemple : serveurs ├── Google Drive │ ├── getDocument.ts │ └── index.ts ├── Salesforce │ ├── updateRecord.ts │ └── index.ts L'agent découvre les outils en explorant le système de fichiers et ne charge que les définitions nécessaires à la tâche en cours. Un scénario qui nécessitait auparavant 150 000 jetons n'en requiert plus que 2 000, ce qui représente une économie de 98,7 % en termes de coûts et de temps. Cinq avantages fondamentaux 1. La découverte progressive des agents leur permet de consulter les définitions des outils à la demande, plutôt que de les charger toutes en même temps. Une fonction de recherche peut également être ajoutée pour ne charger que les outils pertinents. 2. Traitement des données contextuel : les données sont filtrées et transformées au sein de l’environnement d’exécution du code avant d’être renvoyées au modèle. Lors du traitement d’une table contenant 10 000 lignes, l’agent n’a besoin d’examiner que 5 lignes au lieu de la totalité des données. 3. Des boucles de contrôle plus robustes, des instructions conditionnelles et une gestion des erreurs plus efficace peuvent être mises en œuvre à l'aide de modèles de programmation familiers, plutôt que d'enchaîner des appels d'outils individuels. Par exemple, l'interrogation des notifications Slack peut être réalisée avec une simple boucle while. 4. Protection de la vie privée : Par défaut, les résultats intermédiaires sont conservés dans l’environnement d’exécution ; le modèle ne voit que le contenu explicitement enregistré ou renvoyé. Les données sensibles peuvent circuler sans passer par le contexte du modèle. Le client MCP peut même tokeniser automatiquement les informations personnelles. 5. Persistance de l'état et accumulation des compétences : les agents peuvent sauvegarder du code fonctionnel sous forme de fonctions réutilisables. Une fois un code efficace développé, il peut être sauvegardé pour une utilisation ultérieure. Ceci est étroitement lié au concept de « compétences » d'Anthropic, permettant aux agents de développer en continu leur propre boîte à outils de capacités avancées. Il convient de tenir compte de la complexité induite par l'exécution de code. L'exécution de code généré par l'agent requiert un environnement sécurisé, incluant un sandboxing approprié, des limitations de ressources et une surveillance. Les avantages de l'exécution de code (réduction du coût des jetons, réduction de la latence, amélioration des outils) doivent être mis en balance avec les coûts de mise en œuvre. Cet article révèle une idée importante : si des problématiques telles que la gestion du contexte, la composition des outils et la persistance de l’état peuvent paraître nouvelles, elles disposent toutes de solutions éprouvées en génie logiciel. L’exécution de code applique ces modèles matures aux agents, leur permettant d’interagir plus efficacement avec le serveur MCP grâce à des structures de programmation familières. Adresse du blog

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil