X (Twitter)

Toolathlon：測試智能體處理多元、真實長任務的表現聚焦於真實世界中的複雜、多步驟工作流程，這些任務往往繁瑣、注重細節，並需與多種工具和系統整合。這個基準目標填補現有評估方法的空白，幫助研究者量化不同模型在實際應用上的表現差異、輸出準確度和處理模糊任務的能力。核心概念與工作機制 Toolathlon 透過108 個精心設計的任務來測試智能體。這些任務模擬日常專業場景（如郵件處理、文件管理、資料庫查詢），每個任務平均需20 多個互動輪次，涉及30 多個MCP 伺服器（例如電子郵件系統、檔案系統、Hugging Face 平台）和600 多種工具，包括自訂API 和標準介面。有別於從空白環境起步，任務從現實初始狀態開始，確保評估更貼近實際。評估採用容器化隔離和並行執行架構，整個基準可在1 小時內完成測試，支援高效、可重複的運行。每個任務目錄結構清晰，包括： · 預處理模組：選用設定初始環境。 · 文檔模組：提供任務說明和系統提示。 · 初始工作區：本地起始狀態。 · 標準答案工作區：用於驗證預期結果。 · 評估模組：包含腳本（如main. py）自動檢查輸出正確性。 · 任務配置：JSON 檔案指定所需伺服器和工具。基於OpenAI Agent SDK 框架的適配版，智能體透過提示自主調用工具與系統交互，實現端對端執行。關鍵特性 Toolathlon 的設計強調實用性和穩健性，主要亮點包括： · 多模型相容：支援OpenAI、Anthropic、Google 等閉源模型，以及開源選項，透過統一API 便於跨模型比較。 · 自主智能體架構：智能體依據提示獨立管理任務，無需人工幹預。 · 錯誤容忍機制：工具出錯時傳回訊息而非中斷，允許智慧體重試或調整策略。 · 長輸出處理：自動截斷超長回應，並提供分頁/搜尋工具存取完整內容。 · 上下文管理：內建歷史查詢、刪除和檢索工具，適用於超出模型上下文視窗的任務。 · 隔離與並行：每個任務在獨立Docker/Podman 容器中運行，支援批次處理以提升scalability。 · 狀態驗證：保存完成工作區，並以腳本比較預期結果，確保客觀評分。

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文