X (Twitter)

評估AI Agent 的上下文壓縮策略在處理軟體開發等需要連續性的任務時，單純追求情境高壓縮率並不足夠，更重要的是壓縮後是否保留了AI Agent 繼續有效運作的關鍵資訊。 @FactoryAI 提出的結構化總結方法，在實際任務表現上優於OpenAI 和Anthropic。 httpfactory.ai/news/evaluatin…問題 AI Agent 長時間運作時，會產生大量的對話歷史（> 1M token），超出模型上下文視窗限制。簡單壓縮容易失去關鍵細節，例如修改過的檔案路徑、錯誤訊息或先前決策，導致AI Agent 重複工作、產生幻覺或任務中斷。文章強調，應優化“每任務token 消耗”而非“每次壓縮token 減少”，以實現高效連續工作。評估方法創新傳統指標（如ROUGE 或Embedding 相似度）僅衡量文本相似性，無法評估壓縮後情境是否支援實際任務延續。文章提出一個基於「探針」的評估架構： · 在壓縮後，向AI Agent 提問特定細節，測試其保留。 · 探針分為四類：Recall、Artifact、Continuation 和Decision。 · 使用GPT-5.2 作為LLM 評判器，在六個維度評分（0-5 分）：準確性、上下文感知、工件追蹤、完整性、連續性和指令遵循。三種壓縮策略比較· Factory：採用“anchored iterative summarization”，維護一個結構化的持久總結，包括意圖、文件修改、決策和下一步計劃。新內容逐步合併，而非每次重新生成。 · OpenAI：使用`/responses/compact` 接口，壓縮率最高（99.3%），但總結不透明，常丟棄檔案路徑等低熵內容。 · Anthropic：產生詳細結構化總結（包含分析、檔案、任務等部分），但每次壓縮都完整重新生成，可能導致總結漂移。範例與結果透過一個調試401 錯誤的具體案例說明：Factory 壓縮後能準確回憶錯誤細節和根因，而OpenAI 和Anthropic 丟失部分技術specificity。在真實生產資料（36,611 則訊息）上的大規模測試結果請見下方圖片。 Factory 在準確性和上下文感知上領先。儘管OpenAI 壓縮率最高，但品質最低，可能因資訊遺失導致額外重取成本。關鍵啟示· 結構化優先於極端壓縮：顯式分節總結能更好保留關鍵資訊。 · 壓縮率不是唯一指標：高壓縮可能犧牲任務效率，總token 消耗更重要。 · 工件追蹤是困難：所有方法在此維度得分較低，需額外索引機制。 · 探針評估更可靠：比傳統NLP 指標更能反映真實可用性。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容