[開源推薦] Task Arena: @joindimension 團隊發起的一個開源基準測試項目,目的是評估智能體在真實世界任務中的實際表現。 專案核心目標傳統AI 模型評估基準(如MMLU、HumanEval)多聚焦於知識問答或簡單程式碼生成,而Task Arena 更關注使用者日常最常讓智能體完成的「真實工作」: · 執行類別任務(Action Dataset):讓智能體實際操作工具、完成多步驟流程,例如發送電子郵件、安排行程、管理文件、建立文件、進行研究等。 · 檢索類別任務(Retrieval Dataset):從給定知識庫中準確檢索並合成訊息,例如回答產品規格、最佳實踐、版本變更等複雜問題。 目前內容與規模倉庫主要包含兩個JSON 資料集(共約100 個任務): · action.json:51 個執行類別提示,涵蓋6 大類別(郵件、日曆、文件、研究、文件、多步驟工作流程)。 · retrieval.json:52 個檢索類問答對,附帶預期答案和評估標準。 每個任務都給了: · 明確的成功標準(Success Criteria) · 手動評分指引(目前仍需人工判斷是否完全成功) 倉庫還提供Python 和TypeScript 的簡單載入範例,以及一個評分計算腳本。 為什麼說它「很重要」? 在2025 年底的Agent 評測領域,大家越來越意識到:單純的「知識/推理」分數高,不代表智能體在真實工作中好用。 Task Arena 代表了一類新興的「實用導向」基準(類似GAIA、WebArena、AgentBench),但它更輕、更聚焦於辦公室/生產力場景,且完全由社區驅動。 開源位址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
![[開源推薦] Task Arena: @joindimension 團隊發起的一個開源基準測試項目,目的是評估智能體在真實世界任務中的實際表現。
專案核心目標傳統AI 模型評估基準(如MMLU、HumanEval)多聚焦於知識問答或簡單程](https://pbs.twimg.com/media/G6QtWgIacAERbra.jpg)