X (Twitter)

すべての AI モデルがスキルの使い方を学習できるのでしょうか? @Letta_AI は、AI モデルが人間のように「オンデマンドでスキルを学習」できるかどうかをテストするための Context-Bench Skills ベンチマークをリリースしました。中核的な問題現実世界のアプリケーションにおいて、AIエージェントがすべての知識を事前に備えていることは不可能です。チームが提案する解決策は、エージェントがマニュアル全体を暗記するのではなく、必要に応じてマニュアルを参照するのと同じように、専門的なスキルを動的にロードできるようにすることです。スキルとは何ですか? スキルは基本的に読み込み可能な知識パッケージであり、記述ファイル（SKILL.md）と関連リソース（データセット、スクリプト、サンプルなど）が含まれています。重要なのは、エージェントが会話の開始時にすべてのスキルを読み込むのではなく、必要な場合にのみ関連するスキルを読み込むことです。たとえば、エージェントには、マーケティングコンテンツを作成する必要があるときにのみ読み込まれる「会社のスタイルガイド」スキルや、人口統計情報を分析するときにのみ使用される「国勢調査データパターン」スキルがある場合があります。評価方法 Context-Bench Skillsは、Anthropicのオープンソーススキルライブラリを使用し、LLMを介して各スキルに適したタスクを生成します。評価は以下の3つのシナリオで実施されます。 1. ベースライン: エージェントにはスキルがありません。 2. スキルの使用: 必要なスキルのメタデータを提供します。エージェントはスキルコンテンツを読み込む必要があります。 3. スキルの選択と使用: エージェントは、完全なスキルライブラリから適切なスキルを見つけて使用する必要があります。重要な発見は、スキルの活用に長けたクロードモデルにおいて、関連スキルを提供することでタスク完了率が平均14.1%向上する可能性があることです。さらに興味深いことに、GPT-5やGLM-4.6（オープンソースの重み）といった非人間的モデルでも同様のパフォーマンス向上が見られ、スキル獲得はクロード特有の機能ではなく、一般的な能力であることを示唆しています。しかし、限界もあります。スキルライブラリから適切なスキルを選択することは、既に識別されているスキルを使用するよりも困難です。モデルが最初に適切なスキルを見つける必要がある場合、パフォーマンスは約6.5%低下します。さらに、GPT-5 Miniなどの弱いモデルは、スキルが提供されていても正しく使用できないため、能力の閾値が存在することが示唆されています。実用的な意義 Lettaチームは、モデルに依存しないツールであるLetta Codeを開発しました。これにより、あらゆるLLM（GPT-5、Gemini、GLM-4.6など）で、Claude向けに設計されたスキルセットを利用できるようになります。これにより、スキルは移植可能な知識単位となり、エージェントによる継続的な学習をサポートします。エージェントが解決策を開発すると、それをスキルとしてパッケージ化し、他のエージェントが使用できるようになります。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容