RT @shao__meng: [オープンソースの推奨事項] Task Arena: @joindimension チームによって開始されたオープンソースのベンチマーク プロジェクト。実際のタスクにおけるエージェントの実際のパフォーマンスを評価することを目的としています。 このプロジェクトの主な目的は、従来の AI モデル評価ベンチマーク (MMLU や HumanEval など) は、知識ベースの質問応答や単純な計算に重点を置くことが多いということです...
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。