高階情境工程在編碼智能體的應用 Human Layer 創辦人 @dexhorthy 以個人經驗和實際案例為基礎,強調從原型到生產級程式碼的轉變,核心在於優化LLM 的「上下文視窗」 —— 即模型輸入的資訊品質和結構。 背景:情境工程的起源與AI 編碼的演進 Dex 追溯了「情境工程」一詞的起源:早在2022年4月,他發布了一份「12 Factor Agents」宣言,探討可靠LLM 應用的12 項原則。 2024年6月,該術語被更廣泛推廣。他引用了今年AI Engineer 大會的兩場熱門演講:Sean Grove的“The New Code”,強調規格(specs)而非代碼本身是未來軟體的核心;以及斯坦福大學的一項研究,分析10萬名開發者的數據,發現AI 編碼雖能加速原型,但在大規模企業或遺留代碼中往往導致重工,甚至其反工率——適得其反的任務下,AI 生成代碼可能會增加 Dex 的觀點是:目前模型還無法完全取代人類編寫複雜系統程式碼(如涉及競態條件、關機順序的Go 語言應用)。因此,情境工程的目標是「榨取」現有模型的最大價值:透過精心設計輸入,提升輸出的正確性和效率。 核心挑戰:為什麼傳統AI 程式設計失敗? · Naive Prompting:簡單地與代理人反覆對話(如「不對,重來」),容易耗盡上下文窗口,導致模型迷失方向或產生「噪音」(無關資訊)。 · 上下文瓶頸:LLM 本質上是「純函數」-輸出品質只取決於輸入。編碼智能體的循環過程(搜尋檔案、理解流程、編輯程式碼)會快速填滿窗口,造成資訊過載、遺漏或錯誤。 · 團隊痛點:AI 產生的20,000行程式碼PR 難以審查,導致團隊脫節。 Dex 分享個人經驗:與頂尖AI 編碼者合作時,他被迫放棄逐行審閱,轉而依賴規格來「放手」。 目標設定:適用於大型複雜程式碼庫、解決真實問題、無「垃圾」程式碼、生產級輸出,並最大化tokens 使用率。 關鍵策略:從壓縮到工作流程的重構 Dex 提出「一切皆上下文工程」的理念,優化四個維度:正確性(無壞資訊)、完整性(無缺失)、大小(控制噪音)和軌跡(保持方向)。他避免了低效工具(如簡單的/slashcompact 指令),轉而採用以下高階方法: 1. 有意壓縮(Intentional Compaction): · 非簡單重啟,而是建立「進度檔案」(progress file),記錄關鍵摘要(如檔案路徑、變更意圖、測試計畫)。這比原始程式碼短得多,便於後續代理繼承上下文。 · 公式化思考:有效tokens ≈ 總tokens(~170k) - 噪音tokens。 Dex 引用Jeff Huntley 的「Ralph Wigum as a Software Engineer」 文章,證明循環運行相同提示(而非隨意迭代)能顯著提升結果。 2. 子智能體(Subagents)的上下文控制: · 用於隔離任務,如「尋找資訊流」而不污染主上下文。子智能體返回結構化回應(eg, 檔案名稱+行號),避免「電話遊戲」式的資訊失真。 · 挑戰:非確定性系統易混亂,因此需精確提示父智能體如何指導子智能體。 3. 頻繁有意壓縮與三階段工作流程: · 研究階段:使用開源提示模板,產生系統概述(檔案、資料流、問題定位)。輸出簡潔,方便智能體快速定位。 · 規劃階段:請智能體列出所有變更(文件、程式碼片段、驗證步驟),形成「實施計畫」。計劃通常比代碼短,易於人類審查。 · 實施階段:基於計畫編碼,維持情境使用率<40%。每步完成後更新計劃,重啟新視窗。 · 整體循環:研究→ 規劃→ 實施→ 人類審查→ 迭代。 Dex強調:審查200行計畫遠勝於2000行程式碼,能及早捕獲錯誤,並維持團隊「心智對齊」(mental alignment)-程式碼審查的核心價值。 這些提示範本開源,可在GitHub 找到。 Dex 坦言:這不是“魔法”,需仔細閱讀和調整。 實作案例:從Rust 修復到WASM 整合· Rust 程式碼庫修復:Dex 與另一YC 創辦人Vibhav(BAML創建者)合作,一次修復30萬行Rust 程式碼庫的bug。過程記錄在75分鐘播客中,最終PR 被CTO 悄悄合併-證明適用於遺留系統,無需重工。 · 複雜問題解決:與Boundary CEO 合作,7小時內產生/編寫35,000行程式碼,新增WASM 支持,相當於1-2週工程工作。驗證了策略在生產環境的可行性。 啟示與未來展望 Dex 的核心洞見:程式碼錯誤源自上游——壞研究可釀成數千行壞程式碼,壞計畫則放大數百倍。因此,優先投資規格和系統理解,而非糾結程式碼細節。他的團隊(3人)一個月內消耗大量API 信用,但節省了大量工程時間:實習生首日即發2個PR,第8天達10個;Dex 本人兩個月未打開非Markdown 文件。 展望:編碼智能體將趨於商品化,但團隊轉型(擁抱規格優先、頻繁檢討)才是困難。 Human Layer 正協助從6人YC 初創到千人大企實現這一轉變。 視訊位址:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
