Question issue de mes expériences actuelles : dans quelle mesure peut-on optimiser un système d’agent de codage en choisissant systématiquement des « outils légèrement meilleurs » pour chaque dimension importante de ce système ? Le principal facteur influençant les performances des agents est l'intelligence du modèle (voir Opus 4.5). Mais qu'en est-il de chaque choix d'outillage au sein de l'environnement ? Si chaque outil est plus performant de X %, quel gain de performance obtenons-nous pour les tâches ? Il existe certaines primitives clés qui sont devenues des valeurs par défaut pour de nombreux agents de codage complets : - une bonne recherche locale (ex : croissance récente de la « meilleure » recherche avec warpgrep, mgrep, etc.) - une bonne recherche web, souvent cet outil est lui-même agentique où nous appelons un point de terminaison websearch+agent pour mieux préparer les données (ex : @p0) - Des fonctionnalités de gestion du contexte performantes sont intégrées, telles que l'outil de recherche d'outils d'Anthropic, l'édition du contexte, une meilleure compaction et des instructions d'organisation du système de fichiers pour décharger et recharger le contexte selon les besoins. - des sous-agents par défaut bien configurés pour les tâches courantes telles que la planification ou la révision - etc Je suis très enthousiaste à l'idée d'un avenir où : 1. Un bon harnais de base est un mécanisme de livraison sur lequel les constructeurs peuvent s'appuyer (pensez au SDK Claude Agent et à d'autres harnais). 2. Les développeurs intègrent un ensemble de fonctionnalités qui s'intègrent à la plateforme. Je suis assez optimiste quant au potentiel des Skills comme mécanisme de distribution actuellement ; nous disposons également d'outils/MCP qui peuvent être hébergés dans Skills. 3. Les concepteurs optimisent les invites du harnais pour qu'elles fonctionnent correctement avec l'ensemble des compétences/outils exposés dans le harnais. 4. Les constructeurs mettent à jour de manière itérative le faisceau à partir des évaluations. Dans ce monde, il y a beaucoup de valeur pour : - modèles qui pilotent les faisceaux de câbles - Produits d'agent complets qui ont sélectionné un excellent modèle + harnais - la couche d'outillage/de capacités qui se connecte au système et génère des revenus à chaque utilisation de cette capacité
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.