X (Twitter)

Chaque modèle d'IA peut-il apprendre à utiliser des compétences ? @Letta_AI a publié le benchmark Context-Bench Skills pour tester si les modèles d'IA peuvent « apprendre des compétences à la demande » comme les humains. questions fondamentales Dans les applications concrètes, les agents d'IA ne peuvent pas posséder toutes les connaissances à l'avance. La solution proposée par l'équipe consiste à permettre à l'agent de charger dynamiquement des compétences spécialisées, à l'instar d'un manuel d'utilisation consultable au besoin, plutôt que de mémoriser l'intégralité du manuel. Que sont les compétences ? Les compétences sont essentiellement des ensembles de connaissances chargeables, contenant un fichier de description (SKILL.md) et des ressources associées (jeux de données, scripts, exemples, etc.). L'important est que les agents ne chargent pas toutes les compétences au début d'une conversation, mais seulement les compétences pertinentes en cas de besoin. Par exemple, un agent peut posséder une compétence « guide de style d'entreprise » qui n'est activée que lorsqu'il s'agit de rédiger du contenu marketing ; ou une compétence « modèle de données de recensement » qui n'est utilisée que lors de l'analyse d'informations démographiques. Méthodes d'évaluation Context-Bench Skills utilise la bibliothèque de compétences open source d'Anthropic et génère des tâches appropriées pour chaque compétence via LLM. L'évaluation est menée selon trois scénarios : 1. Situation de référence : L'agent ne possède aucune compétence. 2. Utilisation des compétences : Fournissez les métadonnées des compétences requises ; l'agent doit charger le contenu des compétences. 3. Sélection et utilisation des compétences : L'agent doit trouver et utiliser les compétences appropriées dans la bibliothèque complète de compétences. Le principal résultat est que, pour les modèles Claude capables d'utiliser efficacement les compétences, l'intégration de compétences pertinentes permet d'améliorer le taux d'achèvement des tâches de 14,1 % en moyenne. Plus intéressant encore, des modèles non anthropiques tels que GPT-5 et GLM-4.6 (avec des poids open source) obtiennent également des gains de performance similaires, ce qui suggère que l'acquisition de compétences est une capacité générale plutôt qu'une caractéristique propre à Claude. Cependant, cette approche présente des limitations : sélectionner la compétence appropriée dans la bibliothèque de compétences est plus complexe que d’utiliser une compétence déjà identifiée – les performances diminuent d’environ 6,5 % lorsque le modèle doit d’abord trouver la compétence adéquate. De plus, les modèles moins performants (comme GPT-5 Mini) ne parviennent pas à utiliser correctement la compétence, même lorsqu’elle est fournie, ce qui indique l’existence d’un seuil de capacité. importance pratique L'équipe Letta a développé Letta Code, un outil indépendant du modèle qui permet à tout LLM (GPT-5, Gemini, GLM-4.6, etc.) d'utiliser l'ensemble de compétences initialement conçu pour Claude. Ainsi, les compétences deviennent une unité de connaissance portable, favorisant l'apprentissage continu des agents : lorsqu'un agent développe une solution, celle-ci peut être intégrée comme une compétence utilisable par d'autres agents.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil