LogoThread Easy
  • Explore
  • Thread Compose
LogoThread Easy

Your All-in-One Twitter Thread Companion

© 2025 Thread Easy All Rights Reserved.

Explore

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

评估 AI Agent 的上下文压缩策略

在处理软件开发等需要连续性的任务时,单纯追求上下文高压缩率并不足够,更重要的是压缩后是否保留了 AI Agent 继续有效工作的关键信息。 @FactoryAI 提出的结构化总结方法,在实际任务表现上优于 OpenAI 和 Anthropic。
https://t.co/ZsCDxoVO3Q

主要问题
AI Agent 在长时间运行时,会产生海量的对话历史(> 1M token),超出模型上下文窗口限制。简单压缩容易丢失关键细节,例如修改过的文件路径、错误信息或先前决策,导致 AI Agent 重复工作、产生幻觉或任务中断。文章强调,应优化“每任务 token 消耗”而非“每次压缩 token 减少”,以实现高效连续工作。

评估方法创新
传统指标(如 ROUGE 或 Embedding 相似度)仅衡量文本相似性,无法评估压缩后上下文是否支持实际任务延续。文章提出一种基于“探针”的评估框架:
· 在压缩后,向 AI Agent 提问特定细节,测试其保留情况。
· 探针分为四类:Recall、Artifact、Continuation 和 Decision。
· 使用 GPT-5.2 作为 LLM 评判器,在六个维度打分(0-5 分):准确性、上下文感知、工件追踪、完整性、连续性和指令遵循。

三种压缩策略比较
· Factory:采用“anchored iterative summarization”,维护一个结构化的持久总结,包括意图、文件修改、决策和下一步计划。新内容逐步合并,而非每次重新生成。
· OpenAI:使用 `/responses/compact` 接口,压缩率最高(99.3%),但总结不透明,常丢弃文件路径等低熵内容。
· Anthropic:生成详细结构化总结(包含分析、文件、任务等部分),但每次压缩都完整重新生成,可能导致总结漂移。

示例与结果
通过一个调试 401 错误的具体案例说明:Factory 压缩后能准确回忆错误细节和根因,而 OpenAI 和 Anthropic 丢失部分技术 specificity。

在真实生产数据(36,611 条消息)上的大规模测试结果见下方图片。

Factory 在准确性和上下文感知上领先。尽管 OpenAI 压缩率最高,但质量最低,可能因信息丢失导致额外重取成本。

关键启示
· 结构化优先于极端压缩:显式分节总结能更好保留关键信息。
· 压缩率不是唯一指标:高压缩可能牺牲任务效率,总 token 消耗更重要。
· 工件追踪是难点:所有方法在此维度得分较低,需额外索引机制。
· 探针评估更可靠:比传统 NLP 指标更能反映真实可用性。

评估 AI Agent 的上下文压缩策略 在处理软件开发等需要连续性的任务时,单纯追求上下文高压缩率并不足够,更重要的是压缩后是否保留了 AI Agent 继续有效工作的关键信息。 @FactoryAI 提出的结构化总结方法,在实际任务表现上优于 OpenAI 和 Anthropic。 https://t.co/ZsCDxoVO3Q 主要问题 AI Agent 在长时间运行时,会产生海量的对话历史(> 1M token),超出模型上下文窗口限制。简单压缩容易丢失关键细节,例如修改过的文件路径、错误信息或先前决策,导致 AI Agent 重复工作、产生幻觉或任务中断。文章强调,应优化“每任务 token 消耗”而非“每次压缩 token 减少”,以实现高效连续工作。 评估方法创新 传统指标(如 ROUGE 或 Embedding 相似度)仅衡量文本相似性,无法评估压缩后上下文是否支持实际任务延续。文章提出一种基于“探针”的评估框架: · 在压缩后,向 AI Agent 提问特定细节,测试其保留情况。 · 探针分为四类:Recall、Artifact、Continuation 和 Decision。 · 使用 GPT-5.2 作为 LLM 评判器,在六个维度打分(0-5 分):准确性、上下文感知、工件追踪、完整性、连续性和指令遵循。 三种压缩策略比较 · Factory:采用“anchored iterative summarization”,维护一个结构化的持久总结,包括意图、文件修改、决策和下一步计划。新内容逐步合并,而非每次重新生成。 · OpenAI:使用 `/responses/compact` 接口,压缩率最高(99.3%),但总结不透明,常丢弃文件路径等低熵内容。 · Anthropic:生成详细结构化总结(包含分析、文件、任务等部分),但每次压缩都完整重新生成,可能导致总结漂移。 示例与结果 通过一个调试 401 错误的具体案例说明:Factory 压缩后能准确回忆错误细节和根因,而 OpenAI 和 Anthropic 丢失部分技术 specificity。 在真实生产数据(36,611 条消息)上的大规模测试结果见下方图片。 Factory 在准确性和上下文感知上领先。尽管 OpenAI 压缩率最高,但质量最低,可能因信息丢失导致额外重取成本。 关键启示 · 结构化优先于极端压缩:显式分节总结能更好保留关键信息。 · 压缩率不是唯一指标:高压缩可能牺牲任务效率,总 token 消耗更重要。 · 工件追踪是难点:所有方法在此维度得分较低,需额外索引机制。 · 探针评估更可靠:比传统 NLP 指标更能反映真实可用性。

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Sat Dec 20 01:15:33
Hugging Face: https://t.co/PNWG11ZO7T 
 ModelScope: https://t.co/68mvsp2Efy 
 GitHub: https://t.co/4TiDGAosH6

Hugging Face: https://t.co/PNWG11ZO7T ModelScope: https://t.co/68mvsp2Efy GitHub: https://t.co/4TiDGAosH6

致力于让每个想拥抱AI的人都能找到适合自己的AI产品,助力企业定制AIGC应用

avatar for AIGCLINK
AIGCLINK
Sat Dec 20 01:13:45
阿里刚刚搞了一个可将图像拆分成多个RGBA图层的模型:Qwen-Image-Layered,像Photoshop里图层一样

这种分层使得图像可内在编辑,可以对单个图层进行操作,而不影响其他内容,保障了图像编辑的高保真和一致性

比如说,一张有蓝天、白云、山峦和一棵树的风景照,你想移动那棵树,但栅格图像的纠缠性会使局部修改影响全局,而Qwen-Image-Layered只修改“树”那一层

模型不限固定的图层数量,支持可变数量的图层分解

分解过程可以递归进行,任意一个图层本身都可以被进一步分解

Qwen-Image-Layered对图像的结构化和分层能力,相当于让AI改图从粗修走向了精修,对设计师或者电商、广告行业比较实用

#AI图像编辑 #QwenImageLayered #AI修改

阿里刚刚搞了一个可将图像拆分成多个RGBA图层的模型:Qwen-Image-Layered,像Photoshop里图层一样 这种分层使得图像可内在编辑,可以对单个图层进行操作,而不影响其他内容,保障了图像编辑的高保真和一致性 比如说,一张有蓝天、白云、山峦和一棵树的风景照,你想移动那棵树,但栅格图像的纠缠性会使局部修改影响全局,而Qwen-Image-Layered只修改“树”那一层 模型不限固定的图层数量,支持可变数量的图层分解 分解过程可以递归进行,任意一个图层本身都可以被进一步分解 Qwen-Image-Layered对图像的结构化和分层能力,相当于让AI改图从粗修走向了精修,对设计师或者电商、广告行业比较实用 #AI图像编辑 #QwenImageLayered #AI修改

Hugging Face: https://t.co/PNWG11ZO7T ModelScope: https://t.co/68mvsp2Efy GitHub: https://t.co/4TiDGAosH6

avatar for AIGCLINK
AIGCLINK
Sat Dec 20 01:13:44
RT @indie_maker_fox: cloudflare wrangler支持了 wrangler setup 命令,通过这个命令可以快速为主流开发框架项目生成wrangler配置文件,或者执行 wrangler deploy --x-autoconfig 可以快速配置一…

RT @indie_maker_fox: cloudflare wrangler支持了 wrangler setup 命令,通过这个命令可以快速为主流开发框架项目生成wrangler配置文件,或者执行 wrangler deploy --x-autoconfig 可以快速配置一…

🔥 The best AI SaaS boilerplate - https://t.co/VyNtTs0jSX 🚀 The best directory boilerplate with AI - https://t.co/wEvJ1Dd8aR 🎉 https://t.co/bh1RxeERuY & https://t.co/zubXJCoY92 & https://t.co/tfQf8T7gGF

avatar for Fox@MkSaaS.com
Fox@MkSaaS.com
Sat Dec 20 01:10:42
RT @john_ssuh: Temporal @temporalio
Modal @modal 
Planetscale @PlanetScale  
Turbopuffer @Sirupsen

Generational companies. Nearly "solved"…

RT @john_ssuh: Temporal @temporalio Modal @modal Planetscale @PlanetScale Turbopuffer @Sirupsen Generational companies. Nearly "solved"…

achieve ambition with intentionality, intensity, & integrity i made: - @dxtipshq - @cognition - @sveltesociety - @aidotengineer - @latentspacepod + @smol_ai

avatar for swyx
swyx
Sat Dec 20 01:08:41
RT @adic_9: rnaseq can be sent to a lab like Berkeley’s genomics lab for about $300 a sample if you can get a batch of 24+ patients who are…

RT @adic_9: rnaseq can be sent to a lab like Berkeley’s genomics lab for about $300 a sample if you can get a batch of 24+ patients who are…

the distribution is anything but normal

avatar for snwy
snwy
Sat Dec 20 01:03:23
  • Previous
  • 1
  • More pages
  • 293
  • 294
  • 295
  • More pages
  • 5634
  • Next