X (Twitter)

MCP、RAG、NLWeb 與HTML 的對決：不同Agent 網路互動介面的效能與效率對比來自德國Mannheim 大學的研究，探討了一個核心問題：AI Agent 到底應該「怎麼看」網頁，才能不僅看得懂，而且工作快、花錢少？論文：httarxiv.org/pdf/2511.23281心背景：Agent 的“閱讀障礙” 在目前的網路世界中，絕大多數的網站是為人類設計（漂亮的排版、圖片、複雜的HTML 結構）。當AI Agent 試圖透過「閱讀」原始HTML 程式碼來完成任務時，它往往會感到吃力： · 幹擾多： HTML 裡充滿了廣告、樣式程式碼，很難擷取核心資訊。 · 費腦子（Token）：以前Agent 需要消耗大量Token 去理解網頁結構，導致速度慢且昂貴。四位參賽者MCP、RAG、NLWeb 與HTML · HTML - “硬啃生肉” - Agent 直接像瀏覽器一樣讀取網頁原始碼。這是最傳統但也最笨重的方法。 · RAG - 「劃重點」先把網站內容抓下來，建成索引。 Agent 只閱讀與問題最相關的片段，不看全篇。 · MCP - 「走專用通道」 - 網站提供一套標準的API 接口，Agent 透過呼叫這些標準工具（如「搜尋商品」、「取得價格」）來互動。 · NLWeb - “直接對話” - 這是一個新穎的概念。 Agent 直接用自然語言問網站：“你們這兒有啥顯示卡？”，網站用JSON 回答。實驗設計與「未來」模型研究團隊建構了一個名為WebMall 的測試平台，包含四個模擬電商網站。他們使用了2025 年底的頂級模型進行測試，包括GPT-5、GPT-5-mini、GPT-4.1 和Claude Sonnet 4。測試的任務涵蓋了從簡單的「查價格」到複雜的「尋找替代商品」和「完成結帳」。關鍵發現與數據解讀實驗結果非常具有衝擊力，徹底暴露了傳統HTML 方式的短板： A. 效率與準確率的碾壓· HTML 完敗：直接讀取HTML 的F1 分數僅為0.67，是表現最差的。 · 新介面大勝： RAG、MCP 和NLWeb 的平均F1 分數都提升到了0.75 - 0.77。 · GPT-5 的統治力：當使用最強的GPT-5 模型配合RAG 介面時，F1 分數高達0.87，任務完成率接近80%。 B. 成本與速度的巨大差異· 省錢（Token 用量）： HTML 方式平均每個任務要消耗24 萬Token（因為網頁代碼太長）；而其他三種方式僅需4.7 萬- 14 萬Token。 · 省時（運行時間）： HTML 方式平均耗時291 秒（近5 分鐘）；而其他方式僅需50 - 60 秒，速度提升了5 倍。 C. 最佳性價比組合論文指出了一個有趣的結論：雖然GPT-5 + RAG 效果最好，但從性價比（成本vs 效果）角度來看，GPT-5-mini 配合RAG 是目前的最佳平衡點。深度洞察與產業啟示這篇論文對未來的AI 開發和網站建設指明了方向： · HTML 已是過去式：對於複雜的Agent 任務，直接讓AI 解析HTML 是極為低效且昂貴的。未來的Agent 開發應盡量避免這種方式。 · 「AI 友善」網站將成趨勢：如果網站想要被AI 助理（如購物助理、搜尋助理）更好地索引和使用，就必須提供MCP 或NLWeb 這樣的接口，或者優化內容以適應RAG。 · 模型能力的依賴：實驗發現，MCP 和NLWeb 這種透過API 或對話互動的方式，對模型本身的推理能力要求更高。 GPT-5 在這方面表現出的優勢比在簡單任務中更明顯。總結這篇論文告訴我們，為了迎接AI Agent 時代的到來，我們需要重構網路的「門面」。未來的網路不只是給人看的（HTML），更是給AI 看的（MCP/NLWeb）。對開發者而言，放棄讓Agent 「硬啃」網頁，轉而建構更結構化的資料互動通道，是提升效率的必經之路。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容