[オープンソースの推奨事項] Task Arena: @joindimension チームによって開始されたオープンソースのベンチマーク プロジェクト。実際のタスクにおけるエージェントの実際のパフォーマンスを評価することを目的としています。 このプロジェクトの主な目的は、従来の AI モデル評価ベンチマーク (MMLU や HumanEval など) が知識ベースの質問応答や単純なコード生成に重点を置いているのに対し、Task Arena はユーザーが日常的にエージェントに実行させる最も頻繁な「現実世界のタスク」に重点を置いているという事実に対処することです。 • アクション データセット: エージェントが実際にツールを操作し、電子メールの送信、予定のスケジュール設定、ファイルの管理、ドキュメントの作成、調査の実施などの複数ステップのプロセスを完了できるようにします。 • 検索データセット: 製品の仕様、ベストプラクティス、バージョンの変更に関する複雑な質問に答えるなど、特定の知識ベースから情報を正確に取得して統合します。 現在のコンテンツおよびスケール リポジトリには、主に 2 つの JSON データセット (合計で約 100 個のタスク) が含まれています。 • action.json: 6 つの主要カテゴリ (電子メール、カレンダー、ドキュメント、リサーチ、ファイル、マルチステップ ワークフロー) をカバーする 51 個の実行クラスの提案。 • retrieval.json: 検索タイプの質問と回答のペア 52 個と、期待される回答および評価基準。 各タスクでは次のものが提供されます。 • 明確な成功基準 • 手動スコアリングガイド(現時点では、完全に成功したかどうかを判断するために手動の判断が必要です) リポジトリには、Python と TypeScript での簡単な読み込み例と、スコア計算スクリプトも用意されています。 なぜ「非常に重要」だと考えられるのでしょうか? 2025年末のエージェント評価の分野では、「知識/推論」のスコアが高いだけでは、必ずしもエージェントが実社会で効果的に機能するとは限らないことがますます明らかになりました。Task Arenaは、GAIA、WebArena、AgentBenchと同様の「実践重視」のベンチマークを提供する新しいタイプのツールですが、より軽量で、オフィス/生産性シナリオに重点を置き、完全にコミュニティ主導で開発されています。 オープンソースアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[オープンソースの推奨事項] Task Arena: @joindimension チームによって開始されたオープンソースのベンチマーク プロジェクト。実際のタスクにおけるエージェントの実際のパフォーマンスを評価することを目的としています。](https://pbs.twimg.com/media/G6QtWgIacAERbra.jpg)