2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿?
我也好奇这个问题,这篇文章倒是给了我部分答案。
Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。
还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。
猜猜结果如何?
各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。
模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。
这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。
(参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。
第一级:基本功 (工具使用 + 规划)
这是金字塔的底座。你总得会用公司的系统,能看懂任务吧?
比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。
这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。
第二级:适应性(Adaptability) (计划赶不上变化)
OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办?
比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。"
但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗?
这就是适应性。计划 A 失败了,你得有 Plan B。
第三级:抓地力(Groundedness) (别胡编乱造)
Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。
这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。
比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。
更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。
这就叫"抓地力"了。这种 AI Agent 你敢用吗?
第四级:常识推理 (真正的"智能")
这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。
这已经不是"会不会用工具"的问题了,而是"够不够聪明"。
文章举了几个 GPT-5 失败的例子,都特别经典:
1. 客户说:"我想退款,包裹刚到几小时。" 人类客服秒懂:这是"退货" (Return)。 GPT-5 拿到了所有信息,但它没把"包裹到了"和"退款"这两个点联系起来,搞不懂这到底是"退货"还是"取消订单" (Cancellation)。
2. 任务是"找出八月份的'游戏玩家'客户"。 聪明的做法是:搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是:一天一天地搜,从 8 月 1 号搜到 8 月 31 号。 它花了 31 次搜索,硬是"穷举"出来了。 这说明它能执行,但它... 不太"机灵"。
3. 客户说:"我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。 但其实,客户的意思是:"我就是 Sarah Kim,快用这个名字查我的会员折扣!" GPT-5 没能理解这个"弦外之音"。
所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。
而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。
就像图2 那样,“常识”这一层,还有得爬呢!
建议阅读原文:
Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.