すべての AI モデルがスキルの使い方を学習できるのでしょうか? @Letta_AI は、AI モデルが人間のように「オンデマンドでスキルを学習」できるかどうかをテストするための Context-Bench Skills ベンチマークをリリースしました。 中核的な問題 現実世界のアプリケーションにおいて、AIエージェントがすべての知識を事前に備えていることは不可能です。チームが提案する解決策は、エージェントがマニュアル全体を暗記するのではなく、必要に応じてマニュアルを参照するのと同じように、専門的なスキルを動的にロードできるようにすることです。 スキルとは何ですか? スキルは基本的に読み込み可能な知識パッケージであり、記述ファイル(SKILL.md)と関連リソース(データセット、スクリプト、サンプルなど)が含まれています。重要なのは、エージェントが会話の開始時にすべてのスキルを読み込むのではなく、必要な場合にのみ関連するスキルを読み込むことです。 たとえば、エージェントには、マーケティング コンテンツを作成する必要があるときにのみ読み込まれる「会社のスタイル ガイド」スキルや、人口統計情報を分析するときにのみ使用される「国勢調査データ パターン」スキルがある場合があります。 評価方法 Context-Bench Skillsは、Anthropicのオープンソーススキルライブラリを使用し、LLMを介して各スキルに適したタスクを生成します。評価は以下の3つのシナリオで実施されます。 1. ベースライン: エージェントにはスキルがありません。 2. スキルの使用: 必要なスキルのメタデータを提供します。エージェントはスキル コンテンツを読み込む必要があります。 3. スキルの選択と使用: エージェントは、完全なスキル ライブラリから適切なスキルを見つけて使用する必要があります。 重要な発見は、スキルの活用に長けたクロードモデルにおいて、関連スキルを提供することでタスク完了率が平均14.1%向上する可能性があることです。さらに興味深いことに、GPT-5やGLM-4.6(オープンソースの重み)といった非人間的モデルでも同様のパフォーマンス向上が見られ、スキル獲得はクロード特有の機能ではなく、一般的な能力であることを示唆しています。 しかし、限界もあります。スキルライブラリから適切なスキルを選択することは、既に識別されているスキルを使用するよりも困難です。モデルが最初に適切なスキルを見つける必要がある場合、パフォーマンスは約6.5%低下します。さらに、GPT-5 Miniなどの弱いモデルは、スキルが提供されていても正しく使用できないため、能力の閾値が存在することが示唆されています。 実用的な意義 Lettaチームは、モデルに依存しないツールであるLetta Codeを開発しました。これにより、あらゆるLLM(GPT-5、Gemini、GLM-4.6など)で、Claude向けに設計されたスキルセットを利用できるようになります。これにより、スキルは移植可能な知識単位となり、エージェントによる継続的な学習をサポートします。エージェントが解決策を開発すると、それをスキルとしてパッケージ化し、他のエージェントが使用できるようになります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
