Explorer

上下文高效流控/降噪：Coding Agent 的信噪比优化之道 Dex 这篇文章探讨了如何优化 Coding Agents 的上下文效率，核心观点是通过“确定性”的输出控制来减少 Token 浪费，从而让模型保持在最佳性能的“智能区”。核心痛点：冗余输出不仅费钱，更“降智” · 上下文浪费：像 Jest、Maven 或 Pytest 这样的工具通常会产生数百行日志。如果测试全部通过，这几百行对于 AI 来说只需一个“✓”就能表达。 · 挤占“智能区”：Claude 等模型在约 75k token 内表现最佳。无用的日志不仅浪费 Token，还会把关键信息挤出这个范围，导致模型变笨，甚至需要频繁清理上下文，最终浪费的是昂贵的人类时间。解决方案：确定性的“背压”（Backpressure）机制文章提出了一种简单有效的 Wrapper 模式，而不是让 AI 自己去决定看什么： · 原则：默认“吞掉”所有输出。 · 成功时：只输出一个简洁的 ✓（例如 ✓ Auth tests）。 · 失败时：才输出完整的错误日志。这种机制被称为“上下文高效的背压”，可以理解为流控和降噪过程，它将数百行的噪音压缩为几行关键信号。进阶优化策略 · 快速失败：使用 pytest -x 或 jest --bail。一次只让 AI 修一个错，修好再看下一个。不要把 5 个不同的报错一股脑丢给它，这会增加它的认知负担。 · 过滤噪音：只保留断言失败的那一行，剥离无用的堆栈跟踪和时间戳。 · 框架适配：即使是静默模式，也可以提取并通过简报展示测试通过的数量，保持可见性。对现状的反思：模型不需要“上下文焦虑” 文章批评了当前一些模型为了省流而矫枉过正的做法（如自动把输出重定向到 /dev/null 或使用 head 截断）。 · 盲目截断的坏处：AI 可能会为了省 Token 而把报错信息截没了，导致必须重新运行测试，结果反而消耗了更多时间及 Token。 · 结论：确定性优于非确定性。既然开发者已经知道哪些信息重要（报错信息）哪些不重要（通过日志），就不应该让模型花费数千 Token 去“猜”该看什么，直接由工具层控制展示内容才是最优解。总结：文章提倡从工具链（Tooling）层面入手，主动为 AI 降噪，而不是依赖 AI 自身的长上下文能力。这是一种“以人为本、效率至上”的 Agent 工程化思维。阅读原文

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Wed Dec 10 01:31:31

Context Engineering for AI Agents @weaviate_io 这篇最新博客帮咱们重新系统梳理了 AI Agent 中的「上下文工程」，为模型搭建一个包含记忆、工具和知识库的完整生存环境。配图依旧很赞，对理论和方法的理解很有帮助，推荐朋友们去阅读原文。核心观点：模型不仅需要“指令”，更需要“世界” 提出了一个反直觉但至关重要的观点：强大的 LLM 本身是不够的。即使是最聪明的模型，也是“孤独的大脑”。它们面临三大先天缺陷： · 幻觉：自信地胡说八道。 · 知识隔离：缺乏特定的私有数据或实时世界知识。 · 无记忆：记不住上一秒的对话。上下文工程正是为了解决这些问题：它不仅仅是写出更好的提示词，而是构建一套架构，确保在正确的时间，将正确的信息投喂给模型。它的目标是将孤立的模型与现实世界连接起来，让模型在推理时拥有完整的“上下文环境”。上下文工程的五大支柱文章将上下文工程拆解为五个核心的架构模式，这也是构建生产级 AI 应用的蓝图： · Agent：大脑，作为系统的决策中心；避免让模型盲目行动，需要设计清晰的决策流程和回退机制。 · Query Augmentation：翻译官，将用户模糊的自然语言转化为机器可执行的精准意图。；例如将“帮我找上周开会说的那个文件”转化为包含时间、文档类型、关键词的精确检索指令。 · Retrieval：图书馆，连接外部知识库；核心在于平衡“召回率”与“精准度”，避免信息过载或关键信息遗漏。 · Memory：海马体，赋予系统历史感和学习能力；记忆不是简单的数据存储，需要考虑时间衰减、重要性权重和隐私保护。 · Tools：双手，让 AI 能与实时数据和 API 交互；使 AI 不再局限于生成文本，而是能真正执行操作（如查库存、发邮件）。方法论的范式转移 · 过去（提示词工程）：不仅依赖模型本身的智力，花费大量时间调整 Prompt 的措辞。 · 现在（上下文工程）：将重点放在系统设计上。即使使用中等参数规模的模型，如果上下文工程（数据管道、检索质量、记忆管理）做得好，效果往往优于单纯使用超大模型但缺乏上下文支持的系统。阅读原文

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Wed Dec 10 01:18:55

A few million huh. Let's say 4 million 910Cs. 8 million Ascend compute chiplet dies. A commonly cited figure for yields was 30%. That works out to 25 dies/wafer, or 320K wafers, or 26,6K wpm. Conservative, given Semianalysis figures.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)

Wed Dec 10 01:17:41

RT @staticmaker1: "boring" photo collecting app. bootstrapped business. B2C venture. monetization via one-time payment. estimated reven…

Discovering "boring" businesses at https://t.co/VrB2vWopEc. Sharing "boring" business opportunities at https://t.co/1qQOVZrUXW.

staticmaker

Wed Dec 10 01:16:51

not only can you do this but it's already done but that's no way for a serious power to live

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)

Wed Dec 10 01:07:25

AI “一键生成”全栈应用的终极考场「App-Bench」，Orchids 排名榜首，Claude Code 第二，Cursor 第八，Lovable 第九，Gemini CLI 零分？ App-Bench 是一个高难度基准测试框架，它的核心目标非常明确：评估 AI 编程智能体是否具备仅凭一句自然语言提示词，在零人工干预的情况下，生成完整、可用的现代 Web 应用程序的能力。评测核心：从“写代码”到“做产品” App-Bench 不再满足于测试 AI 写函数片段的能力，而是考察其构建全栈应用的综合实力。这些应用必须包含真实软件的核心特征： · 集成 AI 助手 · 实时数据同步 · 多用户角色逻辑 · 自动化触发器与鉴权流程六大高难度测试场景为了模拟真实的经济价值，App-Bench 选取了 6 个不同领域的复杂应用进行测试： · 金融仪表盘：类似彭博终端，含实时股价、交互图表、AI 咨询及即时论坛。 · 医院管理看板：涉及医生/护士/管理员多角色，需处理床位状态、急救警报及即时通讯。 · 法律助手：基于 RAG 的文档库，支持语音听写和文档引用。 · 药房系统：连接患者与药剂师，处理库存、订单及私密消息。 · 你画我猜游戏：多人在线游戏，需解决回合制逻辑、画布实时同步和回放功能。 · 租赁预订平台：类似 Airbnb，包含搜索过滤、支付流程及媒体上传。严谨的评分方法 · 评分者：由资深全栈开发人员人工评分，非机器自动打分。 · 规模：覆盖 151 个评分细项，累计进行了 4,530 次评估。 · 机制：每个工具给三次机会，取最好的一次成绩。关键发现与洞察 · 行业现状：即使是顶尖工具也无法完美通关。目前表现最好的工具也仅覆盖了约 77% 的必要功能，大多数工具在复杂任务（如多角色交互、复杂UI逻辑）上存在显著缺口。 · 工具形态对比： Web 端生成器的平均表现略优于命令行工具。Web 工具在处理身份验证和基础 UI 框架时更稳定，而 CLI 工具的表现波动较大。 · 主要败因：功能缺失、多角色流程中断、API 过期导致的运行时错误，以及影响可用性的 UI/UX 问题。性能排行榜（Top 10） 1. Orchids 76.8% 2. Claude Code 67.5% 3. v0 (Vercel) 64.9% 4. Bolt 53.6% 5. Google AI Studio 50.3% 6. Codex 38.4% 7. Replit 35.1% 8. Cursor 27.8% 9. Lovable 25.8% 10. Gemini CLI 0.0% 访问网站

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Wed Dec 10 01:06:22

Newest first — browse tweet threads

Explorer

Newest first — browse tweet threads

A few million huh. Let's say 4 million 910Cs. 8 million Ascend compute chiplet dies. A commonly cited figure for yields was 30%. That works out to 25 dies/wafer, or 320K wafers, or 26,6K wpm. Conservative, given Semianalysis figures.

RT @staticmaker1: "boring" photo collecting app. bootstrapped business. B2C venture. monetization via one-time payment. estimated reven…

not only can you do this but it's already done but that's no way for a serious power to live