X (Twitter)

Toolathlon: 多様で現実的な長時間のタスクを処理するインテリジェントエージェントのパフォーマンスをテストします。このベンチマークは、現実世界の複雑な複数ステップのワークフロー（多くの場合、面倒で詳細指向であり、さまざまなツールやシステムとの統合を必要とするタスク）に焦点を当て、既存の評価方法のギャップを埋め、研究者が実際のアプリケーションでさまざまなモデル間のパフォーマンスの違い、出力の精度、およびあいまいなタスクを処理する能力を定量化するのに役立ちます。コアコンセプトと動作メカニズム Toolathlonは、綿密に設計された108のタスクを通してエージェントをテストします。これらのタスクは、日常的な業務シナリオ（メール処理、ファイル管理、データベースクエリなど）をシミュレートし、各タスクは平均20ラウンド以上のインタラクションを必要とします。30台以上のMCPサーバー（メールシステム、ファイルシステム、Hugging Faceプラットフォームなど）と、カスタムAPIや標準インターフェースを含む600以上のツールが関与します。白紙の状態から開始するのとは異なり、タスクは現実的な初期状態から開始されるため、より現実に近い評価が可能になります。評価にはコンテナ化、分離、並列実行アーキテクチャが採用されており、ベンチマーク全体を1時間以内に完了し、効率的で繰り返し実行が可能です。各タスクディレクトリは、以下を含む明確な構造になっています。 • 前処理モジュール：初期環境のオプション設定。 • ドキュメントモジュール: タスクの説明とシステムプロンプトを提供します。 • 初期作業領域: ローカルの開始状態。 • 標準回答ワークスペース: 期待される結果を確認するために使用されます。 • 評価モジュール: 出力の正確性を自動的にチェックするスクリプト (main.py など) が含まれています。 • タスク構成: JSON ファイルで必要なサーバーおよびツールを指定します。エージェントは、OpenAI Agent SDK フレームワークの適応バージョンに基づいて、自律的にツールを呼び出し、プロンプトを通じてシステムと対話して、エンドツーエンドの実行を実現します。主な特徴 Toolathlon のデザインは実用性と堅牢性を重視しており、主な特徴は次のとおりです。 • マルチモデル互換性: OpenAI、Anthropic、Google などのクローズドソースモデルとオープンソースオプションをサポートし、統合 API を通じてモデル間の比較を容易にします。 • 自律エージェントアーキテクチャ: エージェントは、人間の介入なしに、プロンプトに基づいてタスクを独立して管理します。 • エラー許容メカニズム：ツールに不具合が発生した場合、中断するのではなくメッセージを返し、AIが再試行したり戦略を調整したりできるようにします。 • 長い出力処理: 過度に長い応答を自動的に切り捨て、完全なコンテンツにアクセスするためのページ区切り/検索ツールを提供します。 • コンテキスト管理: モデルコンテキストウィンドウ外のタスク用の履歴クエリ、削除、および取得ツールが組み込まれています。 • 分離と並列処理: 各タスクは独立した Docker/Podman コンテナで実行され、バッチ処理をサポートしてスケーラビリティを向上させます。 • ステータスの検証: 完了したワークスペースを保存し、スクリプトを使用して予想される結果と比較して、客観的なスコアリングを確保します。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容