Toolathlon:測試智能體處理多元、真實長任務的表現 聚焦於真實世界中的複雜、多步驟工作流程,這些任務往往繁瑣、注重細節,並需與多種工具和系統整合。這個基準目標填補現有評估方法的空白,幫助研究者量化不同模型在實際應用上的表現差異、輸出準確度和處理模糊任務的能力。 核心概念與工作機制 Toolathlon 透過108 個精心設計的任務來測試智能體。這些任務模擬日常專業場景(如郵件處理、文件管理、資料庫查詢),每個任務平均需20 多個互動輪次,涉及30 多個MCP 伺服器(例如電子郵件系統、檔案系統、Hugging Face 平台)和600 多種工具,包括自訂API 和標準介面。有別於從空白環境起步,任務從現實初始狀態開始,確保評估更貼近實際。 評估採用容器化隔離和並行執行架構,整個基準可在1 小時內完成測試,支援高效、可重複的運行。每個任務目錄結構清晰,包括: · 預處理模組:選用設定初始環境。 · 文檔模組:提供任務說明和系統提示。 · 初始工作區:本地起始狀態。 · 標準答案工作區:用於驗證預期結果。 · 評估模組:包含腳本(如main. py)自動檢查輸出正確性。 · 任務配置:JSON 檔案指定所需伺服器和工具。 基於OpenAI Agent SDK 框架的適配版,智能體透過提示自主調用工具與系統交互,實現端對端執行。 關鍵特性 Toolathlon 的設計強調實用性和穩健性,主要亮點包括: · 多模型相容:支援OpenAI、Anthropic、Google 等閉源模型,以及開源選項,透過統一API 便於跨模型比較。 · 自主智能體架構:智能體依據提示獨立管理任務,無需人工幹預。 · 錯誤容忍機制:工具出錯時傳回訊息而非中斷,允許智慧體重試或調整策略。 · 長輸出處理:自動截斷超長回應,並提供分頁/搜尋工具存取完整內容。 · 上下文管理:內建歷史查詢、刪除和檢索工具,適用於超出模型上下文視窗的任務。 · 隔離與並行:每個任務在獨立Docker/Podman 容器中運行,支援批次處理以提升scalability。 · 狀態驗證:保存完成工作區,並以腳本比較預期結果,確保客觀評分。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
