X (Twitter)

Une analyse approfondie des « compétences de l'agent Claude » à partir des principes fondamentaux L'explication et l'analyse de Claude Agent Skills par @HanchungLee sont très complètes et respectent scrupuleusement les principes fondamentaux. Je vous recommande vivement de les sauvegarder et de les lire. Partant des principes de base, l'auteur dissèque en profondeur la philosophie de conception du système, sa structure de fichiers, son mécanisme de découverte, son processus d'invocation et ses différences fondamentales avec les outils traditionnels. 1. À quoi sert exactement le système de compétences ? En clair, les « compétences » de Claude ne reposent pas sur des appels de fonctions traditionnels ou des outils d'exécution de code, mais sur un système de méta-outils basé exclusivement sur des invites. En injectant dynamiquement une instruction système soigneusement conçue dans la conversation en cours, il modifie temporairement le comportement de Claude, son ensemble d'outils disponibles et même son modèle par défaut, permettant ainsi à une même instance de Claude de se « transformer » en expert du domaine ou d'exécuter des flux de travail complexes spécifiques. L'idée centrale peut se résumer en une phrase : Compétences = « Connaissances professionnelles pouvant être injectées à la demande + autorisations d'outils pré-autorisées + directives claires d'exécution des tâches ». II. La différence fondamentale entre les compétences et les outils traditionnels Les outils traditionnels (tels que Bash, Read, Write, Computer Use) sont des opérations atomiques exécutées de manière synchrone : le modèle émet un appel → le système externe renvoie immédiatement le résultat → le modèle continue à penser. Les compétences sont complètement différentes : Il n'exécute directement aucun code ni aucune commande externe. Sa fonction est de « réécrire le contexte » : une fois invoqué, il insère une nouvelle instruction prioritaire dans le dialogue. Il s'agit essentiellement d'un « extension d'indication » asynchrone. Après cet appel, toute réflexion et utilisation d'outils ultérieures par Claude devront se conformer à ce nouvel ensemble de règles d'injection. C’est pourquoi les compétences sont naturellement adaptées à la gestion des flux de travail qui nécessitent un raisonnement en plusieurs étapes, une gestion d’état et une connaissance du domaine, tandis que les outils traditionnels sont mieux adaptés aux actions uniques telles que « obtenir des données » et « écrire des fichiers ». 3. À quoi ressemble une compétence ? Une compétence complète est un dossier, avec un seul fichier principal : https://t.co/JW8wM9KmBn. Une structure typique est la suivante : mon-expert-pdf/ ├── SKILL.md ← Le fichier le plus important ├── scripts/ ← Facultatif, contient des scripts Python/JS auxiliaires ├── references/ ← Facultatif, contient la documentation du modèle └── assets/ ← Facultatif, contient des modèles, des binaires, etc., où seul le chemin d'accès est fourni SKILL.md est divisé en deux parties : 1. Métadonnées YAML au début (encadrées par ---) --- nom : pdf Description : Vous êtes un expert en traitement PDF capable d'extraire, de convertir et d'analyser le contenu des PDF. outils autorisés : « Bash, Read, Write » modèle : claude-opus-4-20250514 Version : 1.2.0 --- Explication des champs clés : • nom : Le nom de la commande à laquelle la compétence est invoquée (l’utilisateur dirait : « Traiter ce fichier à l’aide de la compétence pdf »). • Description : Élément essentiel ! Claude détermine quelle compétence utiliser en consultant la description de toutes les compétences. Elle doit donc être concise et orientée action. • Outils autorisés : Liste d’outils pré-autorisés, prenant en charge les caractères génériques (ex. : Bash(pdftotext:*)), et respectant le principe du moindre privilège. • Modèle : Permet d’imposer l’utilisation de modèles plus robustes (ex. : Opus 4). 2. Après le YAML, on trouve des instructions détaillées écrites en Markdown pur, qui comprennent généralement : les objectifs de la tâche, les préconditions, les étapes détaillées, les spécifications du format de sortie, les stratégies de gestion des erreurs, des exemples spécifiques et la manière d’utiliser les ressources dans les scripts et les actifs. Style d'écriture recommandé : utilisez des phrases impératives, numérotez les étapes et spécifiez le chemin de citation (par exemple, Read({baseDir}/scripts/extract_text.py)), et ne dépassez pas 5 000 mots au total. IV. Comment les compétences sont-elles découvertes et utilisées ? Claude dispose d'un méta-outil interne appelé « Skill » qui est spécifiquement chargé de générer dynamiquement une liste de toutes les compétences disponibles dans l'environnement actuel. Le processus est le suivant : 1. Au démarrage, Claude analyse tous les dossiers de compétences et lit l'en-tête YAML de chaque fichier SKILL.md. 2. Regroupez ces compétences dans une liste XML structurée et placez-la dans les invites du système. 3. Lorsqu'un utilisateur effectue une requête, Claude s'appuie entièrement sur la compréhension du langage naturel pour sélectionner la compétence la plus appropriée à partir de la description. 4. Lancez un appel d'outil similaire à Skill({"command": "pdf"}). 5. Après vérification des autorisations, l'outil de métadonnées Skill injecte le contenu Markdown complet de la compétence correspondante dans la boîte de dialogue en tant qu'utilisateur (mais marqué avec isMeta : true). 6. Injecter simultanément un court message visible (isMeta : false) pour indiquer à l’utilisateur « Activation des compétences expertes PDF… » V. Pourquoi parle-t-on de « l’architecture d’agent intelligent complexe la plus sûre » ? 1. Absence de privilèges d'exécution de code : Toute la logique est finalement déduite et complétée par Claude lui-même. 2. Les autorisations des outils peuvent être contrôlées avec précision : les compétences peuvent être pré-autorisées uniquement pour quelques commandes telles que pdftotext et grep. 3. Fonctionnement purement guidé par les instructions : même si la compétence est mal écrite, cela ne fera que rendre le modèle maladroit et ne provoquera pas d'incident de sécurité. 4. Prise en charge des mises à jour instantanées : ajoutez une nouvelle compétence à un dossier, et elle sera immédiatement disponible lors de la prochaine conversation sans avoir besoin de redémarrer. VI. Étude de cas réelle : La partie la plus convaincante de l’article concernant la compétence de création de compétences elle-même démontre « comment une compétence en crée une autre » grâce à cette compétence. Elle met en œuvre un assistant complet en cinq étapes : 1. Comprendre les besoins → 2. Élaborer un plan → 3. Initialiser le dossier et le fichier SKILL.md → 4. Permettre aux utilisateurs de modifier et d'améliorer le fichier → 5. Créer le package et vérifier L'ensemble du processus est réalisé au sein de Claude, n'appelant des modèles Python dans des scripts qu'en cas de besoin, démontrant ainsi les incroyables capacités d'auto-amorçage du système de compétences. Résumé : Principaux enseignements sur le système de compétences 1. Le savoir professionnel ne s'acquiert pas par l'exemple, mais il nous est plutôt « injecté ». 2. Les agents intelligents complexes n'ont pas nécessairement besoin de ReAct + appels de fonction ; de simples indications + réécriture du contexte sont tout aussi efficaces. 3. Sécurité et capacité ne sont pas incompatibles : grâce à des outils pré-autorisés et à des instructions claires, Claude peut gérer des tâches complexes du monde réel tout en conservant un contrôle total. Adresse du blog :

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil