X (Twitter)

[Anthropic 工程部落格解讀] 進階工具使用功能：工具搜尋工具、程式化工具呼叫和工具使用範例三項技術結合，顯著降低Token 消耗，工具選擇更明確，複雜呼叫更準確。 Anthropic 最近在Claude 開發者平台上推出了進階工具使用(advanced tool use) 功能，讓AI 智能體能夠高效處理數百甚至數千個工具，而不會被上下文視窗的限制所束縛。想像一下，一個智能體需要同時操作IDE、Git、Slack、GitHub、Jira 或資料庫等系統——傳統方式下，工具定義會佔用海量Token，導致上下文膨脹、工具選擇錯誤或呼叫延遲。這些新功能透過動態載入、程式碼編排和範例指導，顯著提升了智慧體的實用性和可擴展性。 https://t.co/RiM4CuLtgp 核心挑戰與因應策略建構可靠的工具使用系統面臨三大痛點：一是Token 消耗過高－例如，從多個服務（如GitHub 和Slack）拉取工具定義，可能瞬間吃掉50,000+ Token 二是工具選擇不準－類似名稱的工具（如notification-send-user 和notification-send-channel）容易混淆三是呼叫模式模糊－JSON 模式雖規範參數，但無法直觀展示複雜格式，如日期或巢狀物件。 Anthropic 的策略是「延遲與智慧」：不一次載入所有工具，而是按需發現和呼叫；用程式碼取代自然語言來協調多步驟操作，減少推理輪次；並透過範例澄清用法。這些方法本質上將工具使用從靜態描述轉向動態執行，幫助智慧體在資源有限的環境中實現複雜工作流程。三大關鍵技術 1. 工具搜尋工具（Tool Search Tool）這是一個“元工具”，允許智能體在運行時搜尋並載入相關工具，而不是預先載入全部定義。工具標記defer_loading: true 後，只有搜尋工具和少數核心工具進入初始上下文。智能體可透過名稱或說明動態拉取，例如查詢GitHub 任務時，只會載入github.createPullRequest。優點：Token 節省高達85%（從77K 降至8.7K），準確率提升顯著（如Claude Opus 4 從49% 升至74%）。實作簡單：在工具數組中新增搜尋配置，即可支援MCP 的批次延遲載入。這讓智能體像「智慧索引」一樣，高效導航龐大工具庫。 2. 程序化工具呼叫（Programmatic Tool Calling）智能體不再逐一用自然語言呼叫工具，而是產生Python 程式碼在沙箱環境中執行多工具協調。工具需標記allowed_callers: ["code_execution_20250825"]，Claude 則輸出包含循環、條件和並行執行（如asyncio.gather）的程式碼片段。範例：檢查預算超支時，程式碼可並行取得團隊成員、預算和支出數據，只將最終結果（如超支清單）回傳給智能體，避免中間資料污染情境。優點：Token 減少37%（從43,588 降至27,297），延遲降低（無需多輪推理），準確率在知識檢索任務中從25.6% 升至28.5%。這特別適合處理大表格或API 連結，如Claude for Excel 中的大量資料分析。 3. 工具使用範例（Tool Use Examples）補充JSON 模式，提供輸入範例來示範實際呼叫模式。例如，在create_ticket 工具中，列出日期格式（YYYY-MM-DD）、巢狀物件（如reporter）和可選參數（緊急升級）。每個工具可附2-3 個變體範例。優點：複雜參數準確率從72% 躍升至90%，尤其在ID 格式或參數關聯上。這像是給智能體一份“用戶手冊”，讓它快速掌握隱含規則。實驗結果與展望內部基準測試顯示，這些功能在MCP 與GIA 基準上皆有提升：情境保留率達85%，整體準確率平均提高10-20%。例如，在處理大型工具集時，Claude Opus 4.5 的效能從79.5% 上升至88.1%。在實際應用中，它已助力智能體無縫整合Excel 或Jira 等場景。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容