2025 年是公認的智能體元年,眼看著2025 年都快要結束了,那麼這些AI Agent 到底能幫我們幹多少有經濟價值的活兒? 我也好奇這個問題,這篇文章倒是給了我部分答案。 Surge AI 做了個有趣的測試:他們"僱用"了9 個AI 模型,包括最新的GPT-5 和Claude Sonnet 4.5,讓它們在一個模擬的電腦配件公司(叫Corecraft) 裡當客服,處理150 個真實任務。 還挺合理的,客服確實是寫程式碼之外最普遍的Agent 落地場景了。 猜猜看結果如何? 各個模型的能力排行上,跟我預期差不多,最強的是GPT-5 和Claude Sonnet 4.5(不知道Claude Opus 4.1 會不會好一點)。 模型能力上,比我預期的還好一點,最強的GPT-5 和Claude Sonnet 4.5,有超過40% 的智能體任務失敗了,反過來說成功率有50% 多了。 這篇文章有價值的地方不僅僅是他們做了測試和評分,而且提出了一個相對比較科學的框架,叫做"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。 (參考圖1,也標註了目前這些模型大概處在金字塔的什麼位置)。 第一級:基本功(工具使用+ 規劃) 這是金字塔的底座。你總得會用公司的系統,能看懂任務吧? 例如,任務是"查找SkyForge X670E Pro 這個主機板的訂單"。 弱一點的模型(例如GPT-4o) 會直接把"SkyForge X670E Pro"這個產品名,塞進"product_id" (產品ID) 的搜尋框裡。 這就像實習生把客戶的姓名輸到訂單號碼了欄位。當然啥也查不到。 第二級:適應性(Adaptability) (計劃趕不上變化) OK,你現在會用工具了。但如果系統跟你"耍脾氣",該怎麼辦? 例如,任務是查"Vortex Labs"這個牌子的顯示卡。 中等模型(像Gemini 2.5) 搜了,回傳0 個結果。它們就直接跟客戶說:"抱歉,我們不賣這個。" 但Claude 4.5 就聰明一點。它會想:"咦,是不是系統裡沒空格?" 於是它試著搜"VortexLabs" (沒空格),哎,這不就搜到了嗎? 這就是適應性。計劃A 失敗了,你得有Plan B。 第三級:抓地力(Groundedness) (別胡編亂造) Groundedness 這個字很妙,意思是「你還記不記得上下文?」「你有沒有產生幻覺?」 AI在多步驟任務裡,特別容易產生幻覺。 這層要求你"活在當下",別瞎編,別忘了你是誰,你在哪裡。 例如,系統提示裡寫著"今天是2025 年"。 有的模型(像Kimi K2) 轉頭就去搜2024 年的訂單。 更誇張的是Claude,它在查客戶時,自己"編"了一個根本不存在的email 地址拿去搜。 這就叫"抓地力"了。這種AI Agent 你敢用嗎? 第四級:常識推理(真正的"智能") 這是金字塔的塔尖,也是GPT-5 這次栽跟頭的地方。 這已經不是"會不會用工具"的問題了,而是"夠不夠聰明"。 文章舉了幾個GPT-5 失敗的例子,都特別經典: 1. 客戶說:"我想退款,包裹剛到幾小時。" 人類客服秒懂:這是"退貨" (Return)。 GPT-5 拿到了所有信息,但它沒有把"包裹到了"和"退款"這兩個點聯繫起來,搞不懂這到底是"退貨"還是"取消訂單" (Cancellation)。 2. 任務是"找出八月的'遊戲玩家'客戶"。 聰明的做法是:搜尋"GPU"分類+ 搜尋描述裡帶"gaming"的產品。 GPT-5 的做法是:一天一天地搜,從8 月1 號搜到8 月31 號。 它花了31 次搜索,硬是"窮舉"出來了。 這說明它能執行,但它... 不太"機靈"。 3. 客戶說:"我的帳戶名稱應該是Sarah Kim。" GPT-5 以為這是個"修改帳戶名稱"的指示。 但其實,客戶的意思是:"我就是Sarah Kim,快用這個名字查我的會員折扣!" GPT-5 沒能理解這個"弦外之音"。 所以,回到最初的問題。 2025年是“Agent 元年”,不是說我們已經有了能工作的通用Agent。 而是我們終於有了能通過前三層"夠好"的AI,好到讓我們能開始測試它們在第四層(常識) 上到底有多笨。 就像圖2 那樣,「常識」這一層,還有得爬呢! 建議閱讀原文:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。

