我目前實驗中提出的問題是:如果我們執著地在編碼代理框架的每個重要維度上選擇“略微更好的工具”,我們究竟能把編碼代理框架優化到什麼程度? 影響代理性能的最大因素是模型智能(參見 Opus 4.5)。但是,我們在框架中所做的每一個工具選擇又該如何考慮呢?如果每個工具的效能都提升 X%,那麼我們在任務上究竟能提升多少效能? 有些關鍵的基本功能已經成為許多全功能編碼代理的預設設定: - 良好的本地搜尋(例如:近年來 warpgrep、mgrep 等工具帶來的「更好」的搜尋體驗) - 良好的網絡搜索,通常此工具本身就是代理,我們會調用 websearch+代理端點來更好地準備資料(例如:@p0) - 內建了良好的上下文管理功能,例如 Anthropic 的工具搜尋工具、上下文編輯、更好的壓縮以及檔案系統組織指令,以便根據需要卸載和重新載入上下文。 - 針對規劃或審查等常見任務,已針對預設子代理程式進行了良好的調整 - ETC 我對未來充滿期待,期待著: 1. 一個優秀的基礎架構是建構者可以基於其進行建構的交付機制(例如 Claude Agent SDK 和其他架構)。 2. 建構者註入一系列可插入框架中的功能。我目前非常看好技能作為一種分發機制,我們還有一些工具/MCP可以存在於技能中。 3. 建造者優化了安全帶提示,使其與安全帶中展示的技能/工具集良好配合。 4. 建構者根據評估結果迭代更新線束 在這個世界上,以下方面具有很高的價值: 驅動線束的模型 - 全套代理商產品,精心挑選了一款優秀的模特兒+安全帶組合 - 此工具/功能層可插入線束,並在每次呼叫功能時產生效益。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。