X (Twitter)

RT @shao__meng: [オープンソースの推奨事項] Task Arena: @joindimension チームによって開始されたオープンソースのベンチマークプロジェクト。実際のタスクにおけるエージェントの実際のパフォーマンスを評価することを目的としています。このプロジェクトの主な目的は、従来の AI モデル評価ベンチマーク (MMLU や HumanEval など) は、知識ベースの質問応答や単純な計算に重点を置くことが多いということです...

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容