MCP、RAG、NLWeb 与 HTML 的对决:不同 Agent 网络交互接口的效能与效率对比
来自德国 Mannheim 大学的研究,探讨了一个核心问题:AI Agent 到底应该“怎么看”网页,才能不仅看得懂,而且干活快、花钱少?
论文:https://t.co/KMiu8YQijy
核心背景:Agent 的“阅读障碍”
在目前的网络世界中,绝大多数网站是为人类设计的(漂亮的排版、图片、复杂的 HTML 结构)。当 AI Agent 试图通过“阅读”原始 HTML 代码来完成任务时,它往往会感到吃力:
· 干扰多: HTML 里充满了广告、样式代码,很难提取核心信息。
· 费脑子(Token): 以前 Agent 需要消耗大量 Token 去理解网页结构,导致速度慢且昂贵。
四位参赛选手 MCP、RAG、NLWeb 与 HTML
· HTML - “硬啃生肉” - Agent 直接像浏览器一样读取网页源代码。这是最传统但也最笨重的方法。
· RAG - “划重点”先把网站内容抓取下来,建成索引。Agent 只阅读与问题最相关的片段,不看全篇。
· MCP - “走专用通道” - 网站提供一套标准的 API 接口,Agent 通过调用这些标准工具(如“搜索商品”、“获取价格”)来交互。
· NLWeb - “直接对话” - 这是一个新颖的概念。Agent 直接用自然语言问网站:“你们这儿有啥显卡?”,网站用 JSON 回答。
实验设计与“未来”模型
研究团队构建了一个名为 WebMall 的测试平台,包含四个模拟电商网站。他们使用了 2025 年底的顶级模型进行测试,包括 GPT-5、GPT-5-mini、GPT-4.1 和 Claude Sonnet 4。
测试的任务涵盖了从简单的“查价格”到复杂的“寻找替代商品”和“完成结账”。
关键发现与数据解读
实验结果非常具有冲击力,彻底暴露了传统 HTML 方式的短板:
A. 效率与准确率的碾压
· HTML 完败: 直接读 HTML 的 F1 分数仅为 0.67,是表现最差的。
· 新接口大胜: RAG、MCP 和 NLWeb 的平均 F1 分数都提升到了 0.75 - 0.77。
· GPT-5 的统治力: 当使用最强的 GPT-5 模型配合 RAG 接口时,F1 分数高达 0.87,任务完成率接近 80%。
B. 成本与速度的巨大差异
· 省钱(Token 用量): HTML 方式平均每个任务要消耗 24 万 Token(因为网页代码太长);而其他三种方式仅需 4.7 万 - 14 万 Token。
· 省时(运行时间): HTML 方式平均耗时 291 秒(近 5 分钟);而其他方式仅需 50 - 60 秒,速度提升了 5 倍。
C. 最佳性价比组合
论文指出了一个有趣的结论:虽然 GPT-5 + RAG 效果最好,但从性价比(成本 vs 效果)角度来看,GPT-5-mini 配合 RAG 是目前的最佳平衡点。
深度洞察与行业启示
这篇论文对未来的 AI 开发和网站建设指明了方向:
· HTML 已是过去式: 对于复杂的 Agent 任务,直接让 AI 解析 HTML 是极其低效且昂贵的。未来的 Agent 开发应尽量避免这种方式。
· “AI 友好型”网站将成趋势: 如果网站想要被 AI 助理(如购物助手、搜索助手)更好地索引和使用,就必须提供 MCP 或 NLWeb 这样的接口,或者优化内容以适应 RAG。
· 模型能力的依赖性: 实验发现,MCP 和 NLWeb 这种通过 API 或对话交互的方式,对模型本身的推理能力要求更高。GPT-5 在这方面表现出的优势比在简单任务中更明显。
总结
这篇论文告诉我们,为了迎接 AI Agent 时代的到来,我们需要重构互联网的“门面”。 未来的互联网不仅仅是给人看的(HTML),更是给 AI 看的(MCP/NLWeb)。对于开发者而言,放弃让 Agent “硬啃”网页,转而构建更结构化的数据交互通道,是提升效率的必经之路。
邵猛,中年失业程序员 😂
专注 - Context Engineering, AI Agents.
分享 - AI papers, apps and OSS.
ex Microsoft MVP
合作 - 私信/邮箱:shaomeng@outlook.com
📢 公众号/小红书: AI 启蒙小伙伴