「クロード・エージェント・スキル」を原理から深く分析する @HanchungLee氏によるClaude Agent Skillsの説明と分析は非常に包括的で、その根底にある原則を忠実に踏襲しています。ぜひ保存して読んでみてください。著者は、システムの設計哲学、ファイル構造、検出メカニズム、呼び出しプロセス、そして従来のツールとの根本的な違いを、基本原則から徹底的に分析しています。 1. スキル システムは具体的に何をするのでしょうか? 簡単に言えば、Claude の「スキル」は、従来の関数呼び出しやコード実行ツールではなく、純粋にプロンプトベースのメタツールシステムです。綿密に設計されたシステムレベルの命令を現在の会話に動的に挿入することで、Claude の行動、利用可能なツールセット、さらにはデフォルトモデルを一時的に変更し、同じ Claude インスタンスをドメインエキスパートに「変身」させたり、特定の複雑なワークフローを実行したりすることを可能にします。 核となる考え方は、次の一文にまとめることができます。スキル = 「オンデマンドで注入できる専門知識 + 事前承認されたツール権限 + 明確なタスク実行ガイドライン」。 II. スキルと従来のツールの根本的な違い 従来のツール (Bash、Read、Write、Computer Use など) は、同期的に実行されるアトミック操作です。つまり、モデルが呼び出しを発行し、外部システムがすぐに結果を返します。そして、モデルは思考を続けます。 スキルは完全に異なります: コードや外部コマンドを直接実行することはありません。その機能は「コンテキストを書き換える」ことです。呼び出されると、ダイアログに新しい、最高優先度の命令を挿入します。これは本質的に非同期の「ヒント拡張」です。 通話後、Claude によるその後のすべての思考とツールの使用は、この新しい一連の注入ルールに準拠する必要があります。 このため、スキルは、複数ステップの推論、状態管理、ドメイン知識を必要とするワークフローの処理に適していますが、従来のツールは、「データの取得」や「ファイルの書き込み」などの単一のアクションに適しています。 3. スキルとはどのようなものですか? 完全なスキルは、コア ファイルが 1 つだけ含まれるフォルダーです: https://t.co/JW8wM9KmBn。 一般的な構造は次のとおりです。 マイPDFエキスパート/ ├── SKILL.md ← 最も重要なファイル ├── scripts/ ← オプション、補助的なPython/jsスクリプトが含まれています ├── references/ ← オプション、モデルが読み込むドキュメントが含まれています └── assets/ ← オプション、パスのみが提供されるテンプレート、バイナリなどが含まれています SKILL.md は 2 つの部分に分かれています。 1. 先頭の YAML メタデータ (--- で囲まれている) --- 名前: pdf 説明: あなたは、PDF コンテンツを抽出、変換、分析できるプロの PDF 処理エキスパートです。 許可されたツール: 「Bash、読み取り、書き込み」 モデル: claude-opus-4-20250514 バージョン: 1.2.0 --- 主要フィールドの説明: • name: スキルが呼び出されるコマンド名 (ユーザーは「pdf スキルを使用してこのファイルを処理します」と言います)。 • 説明: 最も重要です!Claude はすべてのスキルの説明を読んで、どのスキルをいつ呼び出すかを決定するため、簡潔でアクション指向である必要があります。 • 許可ツール: 事前に承認されたツールのリスト。ワイルドカード(例: Bash(pdftotext:*))をサポートし、最小権限の原則を実装しています。 • モデル: より強力なモデル(例: Opus 4)の使用を強制できます。 2. YAML に続くのは、純粋な Markdown で記述された詳細な手順です。これには通常、タスクの目的、前提条件、詳細な手順、出力形式の仕様、エラー処理戦略、具体的な例、スクリプトやアセットでのリソースの使用方法などが含まれます。 推奨される書き方: 命令形の文を使用し、手順に番号を付け、引用パス (例: Read({baseDir}/scripts/extract_text.py)) を指定して、全体の長さを 5000 語以内に抑えます。 IV. スキルはどのように発見され、活用されるのでしょうか? Claude には、「スキル」と呼ばれる内部メタツールがあり、これは現在の環境で利用可能なすべてのスキルのリストを動的に生成する役割を担っています。 プロセスは次のとおりです。 1. 起動時に、Claude はすべてのスキル フォルダーをスキャンし、各 SKILL.md ファイルの YAML ヘッダーを読み取ります。 2. これらのスキルを構造化された XML リストにパッケージ化し、システム プロンプトに配置します。 3. ユーザーがリクエストを行うと、Claude は自然言語理解に完全に依存して、説明から最も適切なスキルを選択します。 4. Skill({"command": "pdf"}) のようなツール呼び出しを発行します。 5. 権限を確認した後、スキル メタツールは、対応するスキルの完全な Markdown コンテンツをユーザーとしてダイアログに挿入します (ただし、isMeta: true でマークされます)。 6. 同時に、ユーザーに「PDF エキスパート スキルを有効にしています...」と伝える短い表示メッセージ (isMeta: false) を挿入します。 V. なぜこれが「最も安全な複雑なインテリジェントエージェントアーキテクチャ」と呼ばれるのでしょうか? 1. コード実行権限がない: すべてのロジックは最終的にクロード自身によって推論され、完成されます。 2. ツールの権限を正確に制御できます。pdftotext や grep などのいくつかのコマンドに対してのみスキルを事前承認できます。 3. 純粋にプロンプト主導型: スキルが誤って記述されている場合でも、モデルの動作が不器用になるだけで、安全上のインシデントは発生しません。 4. ホット アップデートをサポート: 新しいスキルをフォルダーに追加すると、再起動することなく次の会話ですぐに使用できるようになります。 VI. 実例:スキルクリエータースキルに関する記事で最も魅力的な部分は、スキルクリエータースキルを用いて「スキルがスキルをどのように作成するか」を実証している点です。5ステップからなる完全なウィザードが実装されています。 1. 要件を理解する → 2. 計画を立てる → 3. フォルダとSKILL.mdを初期化する → 4. ユーザーが編集して改良できるようにする → 5. パッケージ化して検証する プロセス全体は Claude 内で完了し、必要な場合にのみスクリプトで Python テンプレートが呼び出され、スキル システムの驚くべき自己ブートストラッピング機能が実証されます。 概要: スキルシステムの核となる洞察 1. 専門知識はモデルを通じて学習されるのではなく、むしろ私たちの中に「注入」されるものです。 2. 複雑なインテリジェント エージェントは必ずしも ReAct + 関数呼び出しを必要としません。純粋なヒント + コンテキスト書き換えも同様に強力です。 3. セキュリティと機能は相互に排他的ではありません。事前に承認されたツールと明確な指示により、Claude は完全な制御を維持しながら、非常に複雑な現実世界のタスクを処理できます。 ブログアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
