MCP、RAG、NLWeb 與HTML 的對決:不同Agent 網路互動介面的效能與效率對比 來自德國Mannheim 大學的研究,探討了一個核心問題:AI Agent 到底應該「怎麼看」網頁,才能不僅看得懂,而且工作快、花錢少? 論文:httarxiv.org/pdf/2511.23281心背景:Agent 的“閱讀障礙” 在目前的網路世界中,絕大多數的網站是為人類設計(漂亮的排版、圖片、複雜的HTML 結構)。當AI Agent 試圖透過「閱讀」原始HTML 程式碼來完成任務時,它往往會感到吃力: · 幹擾多: HTML 裡充滿了廣告、樣式程式碼,很難擷取核心資訊。 · 費腦子(Token): 以前Agent 需要消耗大量Token 去理解網頁結構,導致速度慢且昂貴。 四位參賽者MCP、RAG、NLWeb 與HTML · HTML - “硬啃生肉” - Agent 直接像瀏覽器一樣讀取網頁原始碼。這是最傳統但也最笨重的方法。 · RAG - 「劃重點」先把網站內容抓下來,建成索引。 Agent 只閱讀與問題最相關的片段,不看全篇。 · MCP - 「走專用通道」 - 網站提供一套標準的API 接口,Agent 透過呼叫這些標準工具(如「搜尋商品」、「取得價格」)來互動。 · NLWeb - “直接對話” - 這是一個新穎的概念。 Agent 直接用自然語言問網站:“你們這兒有啥顯示卡?”,網站用JSON 回答。 實驗設計與「未來」模型研究團隊建構了一個名為WebMall 的測試平台,包含四個模擬電商網站。他們使用了2025 年底的頂級模型進行測試,包括GPT-5、GPT-5-mini、GPT-4.1 和Claude Sonnet 4。 測試的任務涵蓋了從簡單的「查價格」到複雜的「尋找替代商品」和「完成結帳」。 關鍵發現與數據解讀實驗結果非常具有衝擊力,徹底暴露了傳統HTML 方式的短板: A. 效率與準確率的碾壓· HTML 完敗: 直接讀取HTML 的F1 分數僅為0.67,是表現最差的。 · 新介面大勝: RAG、MCP 和NLWeb 的平均F1 分數都提升到了0.75 - 0.77。 · GPT-5 的統治力: 當使用最強的GPT-5 模型配合RAG 介面時,F1 分數高達0.87,任務完成率接近80%。 B. 成本與速度的巨大差異· 省錢(Token 用量): HTML 方式平均每個任務要消耗24 萬Token(因為網頁代碼太長);而其他三種方式僅需4.7 萬- 14 萬Token。 · 省時(運行時間): HTML 方式平均耗時291 秒(近5 分鐘);而其他方式僅需50 - 60 秒,速度提升了5 倍。 C. 最佳性價比組合論文指出了一個有趣的結論:雖然GPT-5 + RAG 效果最好,但從性價比(成本vs 效果)角度來看,GPT-5-mini 配合RAG 是目前的最佳平衡點。 深度洞察與產業啟示這篇論文對未來的AI 開發和網站建設指明了方向: · HTML 已是過去式: 對於複雜的Agent 任務,直接讓AI 解析HTML 是極為低效且昂貴的。未來的Agent 開發應盡量避免這種方式。 · 「AI 友善」網站將成趨勢: 如果網站想要被AI 助理(如購物助理、搜尋助理)更好地索引和使用,就必須提供MCP 或NLWeb 這樣的接口,或者優化內容以適應RAG。 · 模型能力的依賴: 實驗發現,MCP 和NLWeb 這種透過API 或對話互動的方式,對模型本身的推理能力要求更高。 GPT-5 在這方面表現出的優勢比在簡單任務中更明顯。 總結這篇論文告訴我們,為了迎接AI Agent 時代的到來,我們需要重構網路的「門面」。 未來的網路不只是給人看的(HTML),更是給AI 看的(MCP/NLWeb)。對開發者而言,放棄讓Agent 「硬啃」網頁,轉而建構更結構化的資料互動通道,是提升效率的必經之路。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
