X (Twitter)

開發生產級AI Agent 一年的實戰經驗- 來自@posthog 團隊分享咱們從架構哲學、戰術實現、開發陷阱與產品體驗四個維度展開看看。一、核心架構哲學：簡單勝過複雜複雜的編排往往不但無用，反而有害。 1. Agent 優於工作流程· 迷思：早期業界流行用圖或預先定義的工作流程來控制AI，認為這樣更可控。 · 現實：這種方式在處理開放式任務時極為脆弱，一旦AI 偏離預設路徑不僅無法自我修正，還會失去上下文。 · 結論：現在的架構迴歸到了一個簡單的單一循環。讓LLM 在一個迴圈中不斷執行、驗證、自我修正，直到完成任務。 2. 單體循環優於子智能體· 迷思：很多人喜歡設計複雜的「子智能體」架構。 · 現實：每增加一層抽象化和分工，都會導致嚴重的脈絡失落。模型需要完整的全局資訊才能做出最佳判斷。 · 結論：一個擁有簡單工具集的單一LLM 循環，往往比一群各司其職的子智能體表現得更聰明、更有效。二、關鍵戰術實現：讓模型「專注」與「懂行」兩個極度落地的「微操」技巧： 1. To-do 清單是超能力· 為了防止Agent 在長任務中“迷路”，他們引入了一個看似多餘的工具todo_write。 · 這其實是一種強化的「思維鏈」。 Agent 在每一步結束後都要更新這個清單，這強制它不斷自我強化下一步的目標，大大提高了任務完成率。 2. 上下文是關鍵· 使用者的問題往往充滿歧義（例如拼字錯誤或內部術語）。如果沒有背景知識，AI 無法正確理解。 · 他們借鑒了Claude Code 的做法，引入了/init 命令。透過網路搜尋和分析，為Agent 建立一個專案級的記憶庫，讓AI 真正「懂」使用者的業務。三、開發陷阱：警戒框架與唯評估論兩個非常犀利的警告： 1. 拒絕過度依賴框架· 他們明確表示後悔使用LangChain 和LangGraph。 · AI 模型迭代極快，重型框架往往跟不上變化，反而成為累贅。他們建議保持“低程式碼層級”，直接呼叫API 往往最靈活、最長久。 2. Evals 不是萬能的· 雖然測試集很重要，但現實世界的複雜性（髒數據、奇怪的用戶路徑）遠超測試集覆蓋範圍。 · 他們強調「Traces Hour」（定期人工審查真實日誌）的重要性。理解真實使用者如何透過AI 交互，比跑通完美的測試集更有價值。四、產品體驗與模型策略 1. 展示全過程· 不要試圖把AI 包裝成一個完美的黑盒。使用者更信任「透明」的AI。 · PostHog AI 選擇展示所有的工具呼叫、推理過程，甚至是失敗的嘗試。這種「白盒」體驗能讓使用者建立信心，也更容易發現問題。 2. 緊接模型紅利· 目前的「版本答案」是：Claude Sonnet 4.5 用於核心循環，OpenAI o4-mini 用於推理和產生複雜查詢。但開發者必須隨時準備好迎接下一個更強的模型。總結 PostHog 這一年的經驗可以概括為：去偽存真。他們拋棄了早期AI 開發中那些看似高大上實則臃腫的“多智能體協作”、“複雜圖編排”和“重型開發框架”，回歸到了最樸素的單循環架構。透過賦予模型更清晰的記憶（To-dos）、更豐富的上下文（Context）以及更透明的交互，打造出了真正能工作的AI 助手。部落格地址

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容