評估AI Agent 的上下文壓縮策略 在處理軟體開發等需要連續性的任務時,單純追求情境高壓縮率並不足夠,更重要的是壓縮後是否保留了AI Agent 繼續有效運作的關鍵資訊。 @FactoryAI 提出的結構化總結方法,在實際任務表現上優於OpenAI 和Anthropic。 httpfactory.ai/news/evaluatin…問題 AI Agent 長時間運作時,會產生大量的對話歷史(> 1M token),超出模型上下文視窗限制。簡單壓縮容易失去關鍵細節,例如修改過的檔案路徑、錯誤訊息或先前決策,導致AI Agent 重複工作、產生幻覺或任務中斷。文章強調,應優化“每任務token 消耗”而非“每次壓縮token 減少”,以實現高效連續工作。 評估方法創新傳統指標(如ROUGE 或Embedding 相似度)僅衡量文本相似性,無法評估壓縮後情境是否支援實際任務延續。文章提出一個基於「探針」的評估架構: · 在壓縮後,向AI Agent 提問特定細節,測試其保留。 · 探針分為四類:Recall、Artifact、Continuation 和Decision。 · 使用GPT-5.2 作為LLM 評判器,在六個維度評分(0-5 分):準確性、上下文感知、工件追蹤、完整性、連續性和指令遵循。 三種壓縮策略比較· Factory:採用“anchored iterative summarization”,維護一個結構化的持久總結,包括意圖、文件修改、決策和下一步計劃。新內容逐步合併,而非每次重新生成。 · OpenAI:使用`/responses/compact` 接口,壓縮率最高(99.3%),但總結不透明,常丟棄檔案路徑等低熵內容。 · Anthropic:產生詳細結構化總結(包含分析、檔案、任務等部分),但每次壓縮都完整重新生成,可能導致總結漂移。 範例與結果透過一個調試401 錯誤的具體案例說明:Factory 壓縮後能準確回憶錯誤細節和根因,而OpenAI 和Anthropic 丟失部分技術specificity。 在真實生產資料(36,611 則訊息)上的大規模測試結果請見下方圖片。 Factory 在準確性和上下文感知上領先。儘管OpenAI 壓縮率最高,但品質最低,可能因資訊遺失導致額外重取成本。 關鍵啟示· 結構化優先於極端壓縮:顯式分節總結能更好保留關鍵資訊。 · 壓縮率不是唯一指標:高壓縮可能犧牲任務效率,總token 消耗更重要。 · 工件追蹤是困難:所有方法在此維度得分較低,需額外索引機制。 · 探針評估更可靠:比傳統NLP 指標更能反映真實可用性。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
