X (Twitter)

我目前實驗中提出的問題是：如果我們執著地在編碼代理框架的每個重要維度上選擇“略微更好的工具”，我們究竟能把編碼代理框架優化到什麼程度？影響代理性能的最大因素是模型智能（參見 Opus 4.5）。但是，我們在框架中所做的每一個工具選擇又該如何考慮呢？如果每個工具的效能都提升 X%，那麼我們在任務上究竟能提升多少效能？有些關鍵的基本功能已經成為許多全功能編碼代理的預設設定： - 良好的本地搜尋（例如：近年來 warpgrep、mgrep 等工具帶來的「更好」的搜尋體驗） - 良好的網絡搜索，通常此工具本身就是代理，我們會調用 websearch+代理端點來更好地準備資料（例如：@p0） - 內建了良好的上下文管理功能，例如 Anthropic 的工具搜尋工具、上下文編輯、更好的壓縮以及檔案系統組織指令，以便根據需要卸載和重新載入上下文。 - 針對規劃或審查等常見任務，已針對預設子代理程式進行了良好的調整 - ETC 我對未來充滿期待，期待著： 1. 一個優秀的基礎架構是建構者可以基於其進行建構的交付機制（例如 Claude Agent SDK 和其他架構）。 2. 建構者註入一系列可插入框架中的功能。我目前非常看好技能作為一種分發機制，我們還有一些工具/MCP可以存在於技能中。 3. 建造者優化了安全帶提示，使其與安全帶中展示的技能/工具集良好配合。 4. 建構者根據評估結果迭代更新線束在這個世界上，以下方面具有很高的價值：驅動線束的模型 - 全套代理商產品，精心挑選了一款優秀的模特兒+安全帶組合 - 此工具/功能層可插入線束，並在每次呼叫功能時產生效益。

來自 Viv（@Vtrivedy10）的推文串

作者資訊

推文串內容