LogoThread Easy
  • Explorer
  • Composer un thread
LogoThread Easy

Votre partenaire tout-en-un pour les threads Twitter

© 2025 Thread Easy All Rights Reserved.

Explorer

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

上下文高效流控/降噪:Coding Agent 的信噪比优化之道

Dex 这篇文章探讨了如何优化 Coding Agents 的上下文效率,核心观点是通过“确定性”的输出控制来减少 Token 浪费,从而让模型保持在最佳性能的“智能区”。

核心痛点:冗余输出不仅费钱,更“降智”
· 上下文浪费:像 Jest、Maven 或 Pytest 这样的工具通常会产生数百行日志。如果测试全部通过,这几百行对于 AI 来说只需一个“✓”就能表达。
· 挤占“智能区”:Claude 等模型在约 75k token 内表现最佳。无用的日志不仅浪费 Token,还会把关键信息挤出这个范围,导致模型变笨,甚至需要频繁清理上下文,最终浪费的是昂贵的人类时间。

解决方案:确定性的“背压”(Backpressure)机制
文章提出了一种简单有效的 Wrapper 模式,而不是让 AI 自己去决定看什么:
· 原则:默认“吞掉”所有输出。
· 成功时:只输出一个简洁的 ✓(例如 ✓ Auth tests)。
· 失败时:才输出完整的错误日志。
这种机制被称为“上下文高效的背压”,可以理解为流控和降噪过程,它将数百行的噪音压缩为几行关键信号。

进阶优化策略
· 快速失败:使用 pytest -x 或 jest --bail。一次只让 AI 修一个错,修好再看下一个。不要把 5 个不同的报错一股脑丢给它,这会增加它的认知负担。
· 过滤噪音:只保留断言失败的那一行,剥离无用的堆栈跟踪和时间戳。
· 框架适配:即使是静默模式,也可以提取并通过简报展示测试通过的数量,保持可见性。

对现状的反思:模型不需要“上下文焦虑”
文章批评了当前一些模型为了省流而矫枉过正的做法(如自动把输出重定向到 /dev/null 或使用 head 截断)。
· 盲目截断的坏处:AI 可能会为了省 Token 而把报错信息截没了,导致必须重新运行测试,结果反而消耗了更多时间及 Token。
· 结论:确定性优于非确定性。既然开发者已经知道哪些信息重要(报错信息)哪些不重要(通过日志),就不应该让模型花费数千 Token 去“猜”该看什么,直接由工具层控制展示内容才是最优解。

总结:文章提倡从 工具链(Tooling)层面入手,主动为 AI 降噪,而不是依赖 AI 自身的长上下文能力。这是一种“以人为本、效率至上”的 Agent 工程化思维。

阅读原文

上下文高效流控/降噪:Coding Agent 的信噪比优化之道 Dex 这篇文章探讨了如何优化 Coding Agents 的上下文效率,核心观点是通过“确定性”的输出控制来减少 Token 浪费,从而让模型保持在最佳性能的“智能区”。 核心痛点:冗余输出不仅费钱,更“降智” · 上下文浪费:像 Jest、Maven 或 Pytest 这样的工具通常会产生数百行日志。如果测试全部通过,这几百行对于 AI 来说只需一个“✓”就能表达。 · 挤占“智能区”:Claude 等模型在约 75k token 内表现最佳。无用的日志不仅浪费 Token,还会把关键信息挤出这个范围,导致模型变笨,甚至需要频繁清理上下文,最终浪费的是昂贵的人类时间。 解决方案:确定性的“背压”(Backpressure)机制 文章提出了一种简单有效的 Wrapper 模式,而不是让 AI 自己去决定看什么: · 原则:默认“吞掉”所有输出。 · 成功时:只输出一个简洁的 ✓(例如 ✓ Auth tests)。 · 失败时:才输出完整的错误日志。 这种机制被称为“上下文高效的背压”,可以理解为流控和降噪过程,它将数百行的噪音压缩为几行关键信号。 进阶优化策略 · 快速失败:使用 pytest -x 或 jest --bail。一次只让 AI 修一个错,修好再看下一个。不要把 5 个不同的报错一股脑丢给它,这会增加它的认知负担。 · 过滤噪音:只保留断言失败的那一行,剥离无用的堆栈跟踪和时间戳。 · 框架适配:即使是静默模式,也可以提取并通过简报展示测试通过的数量,保持可见性。 对现状的反思:模型不需要“上下文焦虑” 文章批评了当前一些模型为了省流而矫枉过正的做法(如自动把输出重定向到 /dev/null 或使用 head 截断)。 · 盲目截断的坏处:AI 可能会为了省 Token 而把报错信息截没了,导致必须重新运行测试,结果反而消耗了更多时间及 Token。 · 结论:确定性优于非确定性。既然开发者已经知道哪些信息重要(报错信息)哪些不重要(通过日志),就不应该让模型花费数千 Token 去“猜”该看什么,直接由工具层控制展示内容才是最优解。 总结:文章提倡从 工具链(Tooling)层面入手,主动为 AI 降噪,而不是依赖 AI 自身的长上下文能力。这是一种“以人为本、效率至上”的 Agent 工程化思维。 阅读原文

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Dec 10 01:31:31
Context Engineering for AI Agents

@weaviate_io 这篇最新博客帮咱们重新系统梳理了 AI Agent 中的「上下文工程」,为模型搭建一个包含记忆、工具和知识库的完整生存环境。配图依旧很赞,对理论和方法的理解很有帮助,推荐朋友们去阅读原文。

核心观点:模型不仅需要“指令”,更需要“世界”
   提出了一个反直觉但至关重要的观点:强大的 LLM 本身是不够的。即使是最聪明的模型,也是“孤独的大脑”。它们面临三大先天缺陷:
· 幻觉:自信地胡说八道。
· 知识隔离:缺乏特定的私有数据或实时世界知识。
· 无记忆:记不住上一秒的对话。

上下文工程正是为了解决这些问题:
   它不仅仅是写出更好的提示词,而是构建一套架构,确保在正确的时间,将正确的信息投喂给模型。
   它的目标是将孤立的模型与现实世界连接起来,让模型在推理时拥有完整的“上下文环境”。

上下文工程的五大支柱
文章将上下文工程拆解为五个核心的架构模式,这也是构建生产级 AI 应用的蓝图:
· Agent:大脑,作为系统的决策中心;避免让模型盲目行动,需要设计清晰的决策流程和回退机制。  
· Query Augmentation:翻译官,将用户模糊的自然语言转化为机器可执行的精准意图。;例如将“帮我找上周开会说的那个文件”转化为包含时间、文档类型、关键词的精确检索指令。 
· Retrieval:图书馆,连接外部知识库;核心在于平衡“召回率”与“精准度”,避免信息过载或关键信息遗漏。 
· Memory:海马体,赋予系统历史感和学习能力;记忆不是简单的数据存储,需要考虑时间衰减、重要性权重和隐私保护。  
· Tools:双手,让 AI 能与实时数据和 API 交互;使 AI 不再局限于生成文本,而是能真正执行操作(如查库存、发邮件)。

方法论的范式转移
· 过去(提示词工程):不仅依赖模型本身的智力,花费大量时间调整 Prompt 的措辞。
· 现在(上下文工程):将重点放在系统设计上。即使使用中等参数规模的模型,如果上下文工程(数据管道、检索质量、记忆管理)做得好,效果往往优于单纯使用超大模型但缺乏上下文支持的系统。

阅读原文

Context Engineering for AI Agents @weaviate_io 这篇最新博客帮咱们重新系统梳理了 AI Agent 中的「上下文工程」,为模型搭建一个包含记忆、工具和知识库的完整生存环境。配图依旧很赞,对理论和方法的理解很有帮助,推荐朋友们去阅读原文。 核心观点:模型不仅需要“指令”,更需要“世界” 提出了一个反直觉但至关重要的观点:强大的 LLM 本身是不够的。即使是最聪明的模型,也是“孤独的大脑”。它们面临三大先天缺陷: · 幻觉:自信地胡说八道。 · 知识隔离:缺乏特定的私有数据或实时世界知识。 · 无记忆:记不住上一秒的对话。 上下文工程正是为了解决这些问题: 它不仅仅是写出更好的提示词,而是构建一套架构,确保在正确的时间,将正确的信息投喂给模型。 它的目标是将孤立的模型与现实世界连接起来,让模型在推理时拥有完整的“上下文环境”。 上下文工程的五大支柱 文章将上下文工程拆解为五个核心的架构模式,这也是构建生产级 AI 应用的蓝图: · Agent:大脑,作为系统的决策中心;避免让模型盲目行动,需要设计清晰的决策流程和回退机制。 · Query Augmentation:翻译官,将用户模糊的自然语言转化为机器可执行的精准意图。;例如将“帮我找上周开会说的那个文件”转化为包含时间、文档类型、关键词的精确检索指令。 · Retrieval:图书馆,连接外部知识库;核心在于平衡“召回率”与“精准度”,避免信息过载或关键信息遗漏。 · Memory:海马体,赋予系统历史感和学习能力;记忆不是简单的数据存储,需要考虑时间衰减、重要性权重和隐私保护。 · Tools:双手,让 AI 能与实时数据和 API 交互;使 AI 不再局限于生成文本,而是能真正执行操作(如查库存、发邮件)。 方法论的范式转移 · 过去(提示词工程):不仅依赖模型本身的智力,花费大量时间调整 Prompt 的措辞。 · 现在(上下文工程):将重点放在系统设计上。即使使用中等参数规模的模型,如果上下文工程(数据管道、检索质量、记忆管理)做得好,效果往往优于单纯使用超大模型但缺乏上下文支持的系统。 阅读原文

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Dec 10 01:18:55
A few million huh. Let's say 4 million 910Cs. 8 million Ascend compute chiplet dies. A commonly cited figure for yields was 30%. That works out to 25 dies/wafer, or 320K wafers, or 26,6K wpm. 
Conservative, given Semianalysis figures.

A few million huh. Let's say 4 million 910Cs. 8 million Ascend compute chiplet dies. A commonly cited figure for yields was 30%. That works out to 25 dies/wafer, or 320K wafers, or 26,6K wpm. Conservative, given Semianalysis figures.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Wed Dec 10 01:17:41
RT @staticmaker1: "boring" photo collecting app.

bootstrapped business.

B2C venture.

monetization via one-time payment.

estimated reven…

RT @staticmaker1: "boring" photo collecting app. bootstrapped business. B2C venture. monetization via one-time payment. estimated reven…

Discovering "boring" businesses at https://t.co/VrB2vWopEc. Sharing "boring" business opportunities at https://t.co/1qQOVZrUXW.

avatar for staticmaker
staticmaker
Wed Dec 10 01:16:51
not only can you do this but it's already done
but that's no way for a serious power to live

not only can you do this but it's already done but that's no way for a serious power to live

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Wed Dec 10 01:07:25
AI “一键生成”全栈应用的终极考场「App-Bench」,Orchids 排名榜首,Claude Code 第二,Cursor 第八,Lovable 第九,Gemini CLI 零分?

App-Bench 是一个高难度基准测试框架,它的核心目标非常明确:评估 AI 编程智能体是否具备仅凭一句自然语言提示词,在零人工干预的情况下,生成完整、可用的现代 Web 应用程序的能力。

评测核心:从“写代码”到“做产品”
App-Bench 不再满足于测试 AI 写函数片段的能力,而是考察其构建全栈应用的综合实力。这些应用必须包含真实软件的核心特征:
· 集成 AI 助手
· 实时数据同步
· 多用户角色逻辑
· 自动化触发器与鉴权流程

六大高难度测试场景
为了模拟真实的经济价值,App-Bench 选取了 6 个不同领域的复杂应用进行测试:
· 金融仪表盘: 类似彭博终端,含实时股价、交互图表、AI 咨询及即时论坛。
· 医院管理看板: 涉及医生/护士/管理员多角色,需处理床位状态、急救警报及即时通讯。
· 法律助手: 基于 RAG 的文档库,支持语音听写和文档引用。
· 药房系统: 连接患者与药剂师,处理库存、订单及私密消息。
· 你画我猜游戏: 多人在线游戏,需解决回合制逻辑、画布实时同步和回放功能。
· 租赁预订平台: 类似 Airbnb,包含搜索过滤、支付流程及媒体上传。

严谨的评分方法
· 评分者: 由资深全栈开发人员人工评分,非机器自动打分。
· 规模: 覆盖 151 个评分细项,累计进行了 4,530 次 评估。
· 机制: 每个工具给三次机会,取最好的一次成绩。

关键发现与洞察
· 行业现状: 即使是顶尖工具也无法完美通关。目前表现最好的工具也仅覆盖了约 77% 的必要功能,大多数工具在复杂任务(如多角色交互、复杂UI逻辑)上存在显著缺口。
· 工具形态对比: Web 端生成器的平均表现略优于 命令行工具。Web 工具在处理身份验证和基础 UI 框架时更稳定,而 CLI 工具的表现波动较大。
· 主要败因: 功能缺失、多角色流程中断、API 过期导致的运行时错误,以及影响可用性的 UI/UX 问题。

性能排行榜(Top 10)
1.  Orchids 76.8%
2. Claude Code 67.5%
3.  v0 (Vercel) 64.9%
4.  Bolt 53.6%
5.  Google AI Studio 50.3%
6.  Codex 38.4%
7.  Replit 35.1%
8.  Cursor 27.8%
9.  Lovable 25.8%
10.  Gemini CLI 0.0%

访问网站

AI “一键生成”全栈应用的终极考场「App-Bench」,Orchids 排名榜首,Claude Code 第二,Cursor 第八,Lovable 第九,Gemini CLI 零分? App-Bench 是一个高难度基准测试框架,它的核心目标非常明确:评估 AI 编程智能体是否具备仅凭一句自然语言提示词,在零人工干预的情况下,生成完整、可用的现代 Web 应用程序的能力。 评测核心:从“写代码”到“做产品” App-Bench 不再满足于测试 AI 写函数片段的能力,而是考察其构建全栈应用的综合实力。这些应用必须包含真实软件的核心特征: · 集成 AI 助手 · 实时数据同步 · 多用户角色逻辑 · 自动化触发器与鉴权流程 六大高难度测试场景 为了模拟真实的经济价值,App-Bench 选取了 6 个不同领域的复杂应用进行测试: · 金融仪表盘: 类似彭博终端,含实时股价、交互图表、AI 咨询及即时论坛。 · 医院管理看板: 涉及医生/护士/管理员多角色,需处理床位状态、急救警报及即时通讯。 · 法律助手: 基于 RAG 的文档库,支持语音听写和文档引用。 · 药房系统: 连接患者与药剂师,处理库存、订单及私密消息。 · 你画我猜游戏: 多人在线游戏,需解决回合制逻辑、画布实时同步和回放功能。 · 租赁预订平台: 类似 Airbnb,包含搜索过滤、支付流程及媒体上传。 严谨的评分方法 · 评分者: 由资深全栈开发人员人工评分,非机器自动打分。 · 规模: 覆盖 151 个评分细项,累计进行了 4,530 次 评估。 · 机制: 每个工具给三次机会,取最好的一次成绩。 关键发现与洞察 · 行业现状: 即使是顶尖工具也无法完美通关。目前表现最好的工具也仅覆盖了约 77% 的必要功能,大多数工具在复杂任务(如多角色交互、复杂UI逻辑)上存在显著缺口。 · 工具形态对比: Web 端生成器的平均表现略优于 命令行工具。Web 工具在处理身份验证和基础 UI 框架时更稳定,而 CLI 工具的表现波动较大。 · 主要败因: 功能缺失、多角色流程中断、API 过期导致的运行时错误,以及影响可用性的 UI/UX 问题。 性能排行榜(Top 10) 1. Orchids 76.8% 2. Claude Code 67.5% 3. v0 (Vercel) 64.9% 4. Bolt 53.6% 5. Google AI Studio 50.3% 6. Codex 38.4% 7. Replit 35.1% 8. Cursor 27.8% 9. Lovable 25.8% 10. Gemini CLI 0.0% 访问网站

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Dec 10 01:06:22
  • Previous
  • 1
  • More pages
  • 1137
  • 1138
  • 1139
  • More pages
  • 5634
  • Next