X (Twitter)

MCP、RAG、NLWeb、HTMLの対決：異なるエージェントネットワークインタラクションインターフェースのパフォーマンスと効率の比較ドイツのマンハイム大学の研究では、「AI エージェントは、Web ページを理解するだけでなく、迅速に動作し、arxiv.org/pdf/2511.23281に「表示」すればよいのか」という核心的な疑問が探究されています。論文: https://t.co/KMiu8YQijy 主な背景：エージェントの「読書障害」今日のオンライン世界では、ウェブサイトの大部分は人間向けに設計されています（美しいレイアウト、画像、複雑なHTML構造など）。AIエージェントが生のHTMLコードを「読み取る」ことでタスクを完了しようとすると、しばしば苦労します。 • 干渉が多すぎる: HTML には広告やスタイルコードが多数含まれているため、コア情報を抽出するのが困難です。 • マインドインテンシブ（トークン）：以前は、エージェントはウェブページの構造を理解するために大量のトークンを消費する必要があり、速度が遅くなり、コストが高くなっていました。出場者は、MCP、RAG、NLWeb、HTML の 4 社です。 • HTML - 「生の肉を噛み砕く」 - エージェントはブラウザのようにウェブページのソースコードを直接読み取ります。これは最も伝統的ですが、最も面倒な方法でもあります。 • RAG - 「要点の強調」では、まずウェブサイトのコンテンツをスクレイピングし、インデックスを構築します。エージェントは記事全体ではなく、質問の最も関連性の高い部分のみを読みます。 • MCP - 「専用チャネル」 - ウェブサイトは API インターフェースの標準セットを提供し、エージェントはこれらの標準ツール (「製品の検索」や「価格の取得」など) を呼び出して対話します。 NLWeb（「直接会話」）は斬新なコンセプトです。エージェントがウェブサイトに自然言語で「どんなグラフィックカードをお持ちですか？」と直接質問すると、ウェブサイトはJSON形式で応答します。実験設計と「未来」モデル研究チームは、4つの模擬eコマースウェブサイトを含むWebMallと呼ばれるテストプラットフォームを構築しました。テストには、GPT-5、GPT-5-mini、GPT-4.1、Claude Sonnet 4など、2025年末時点の上位モデルを使用しました。テストタスクは、単純な「価格の確認」から複雑な「代替製品の検索」や「チェックアウトの完了」まで多岐にわたりました。主な調査結果とデータの解釈: 実験結果は非常にインパクトがあり、従来の HTML 方式の欠点を徹底的に明らかにしました。 A. 圧倒的な効率性と精度: HTML は完全に敗北しました。HTML を直接読み取った場合の F1 スコアはわずか 0.67 で、最も悪い結果となりました。 • 新しいインターフェースは大きな成果を上げました。RAG、MCP、NLWeb の平均 F1 スコアはいずれも 0.75 - 0.77 に向上しました。 • GPT-5 の優位性: 最も強力な GPT-5 モデルを RAG インターフェースで使用すると、F1 スコアは 0.87 と高くなり、タスク完了率は 80% に近くなります。 B. コストと速度の大きな違い • コストの節約 (トークンの使用): HTML 方式では、タスクごとに平均 240,000 トークンが消費されます (Web ページコードが長すぎるため)。一方、他の 3 つの方式では、必要なトークンは 47,000 ～ 140,000 トークンのみです。 • 時間の節約（実行時間）：HTML メソッドでは平均 291 秒（約 5 分）かかりますが、他のメソッドでは 50 ～ 60 秒しかかからず、5 倍高速です。 C. 最高のコストパフォーマンスの組み合わせに関する論文では、興味深い結論が指摘されています。GPT-5 + RAG は最高の効果を発揮しますが、コストパフォーマンス (コスト対効果) の観点からは、GPT-5-mini と RAG の組み合わせが現在のところ最高のバランスポイントです。この論文は、詳細な洞察と業界への影響を提示し、将来の AI 開発と Web サイト構築の道を示しています。 HTMLはもはや過去のもの：複雑なエージェントタスクにおいて、AIにHTMLを直接解析させるのは極めて非効率的でコストもかかるため、今後のエージェント開発ではこのアプローチを可能な限り避けるべきです。 • 「AIフレンドリー」なウェブサイトがトレンドになる：ウェブサイトをより適切にインデックス化してAIアシスタント（ショッピングアシスタントや検索アシスタントなど）で利用したい場合、MCPやNLWebなどのインターフェースを提供するか、RAGに適応するようにコンテンツを最適化する必要があります。 • モデル機能への依存：実験の結果、MCPやNLWebのようなAPIや対話インタラクションに依存する手法は、モデルの推論能力に高い負荷をかけることが明らかになりました。GPT-5は、この点において、より単純なタスクよりも大きな優位性を示しました。本稿は、AIエージェントの時代を迎えるためには、インターネットの「顔」を再構築する必要があると結論づけています。未来のインターネットは、人間（HTML）だけでなく、AI（MCP/NLWeb）にとっても重要なものとなるでしょう。開発者にとって、エージェントにWebページを「詰め込む」ようなやり方を捨て、より構造化されたデータインタラクションチャネルを構築することは、効率性を向上させる上で不可欠です。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容