MCP、RAG、NLWeb、HTMLの対決:異なるエージェントネットワークインタラクションインターフェースのパフォーマンスと効率の比較 ドイツのマンハイム大学の研究では、「AI エージェントは、Web ページを理解するだけでなく、迅速に動作し、arxiv.org/pdf/2511.23281に「表示」すればよいのか」という核心的な疑問が探究されています。 論文: https://t.co/KMiu8YQijy 主な背景:エージェントの「読書障害」 今日のオンライン世界では、ウェブサイトの大部分は人間向けに設計されています(美しいレイアウト、画像、複雑なHTML構造など)。AIエージェントが生のHTMLコードを「読み取る」ことでタスクを完了しようとすると、しばしば苦労します。 • 干渉が多すぎる: HTML には広告やスタイル コードが多数含まれているため、コア情報を抽出するのが困難です。 • マインドインテンシブ(トークン):以前は、エージェントはウェブページの構造を理解するために大量のトークンを消費する必要があり、速度が遅くなり、コストが高くなっていました。 出場者は、MCP、RAG、NLWeb、HTML の 4 社です。 • HTML - 「生の肉を噛み砕く」 - エージェントはブラウザのようにウェブページのソースコードを直接読み取ります。これは最も伝統的ですが、最も面倒な方法でもあります。 • RAG - 「要点の強調」では、まずウェブサイトのコンテンツをスクレイピングし、インデックスを構築します。エージェントは記事全体ではなく、質問の最も関連性の高い部分のみを読みます。 • MCP - 「専用チャネル」 - ウェブサイトは API インターフェースの標準セットを提供し、エージェントはこれらの標準ツール (「製品の検索」や「価格の取得」など) を呼び出して対話します。 NLWeb(「直接会話」)は斬新なコンセプトです。エージェントがウェブサイトに自然言語で「どんなグラフィックカードをお持ちですか?」と直接質問すると、ウェブサイトはJSON形式で応答します。 実験設計と「未来」モデル研究チームは、4つの模擬eコマースウェブサイトを含むWebMallと呼ばれるテストプラットフォームを構築しました。テストには、GPT-5、GPT-5-mini、GPT-4.1、Claude Sonnet 4など、2025年末時点の上位モデルを使用しました。 テストタスクは、単純な「価格の確認」から複雑な「代替製品の検索」や「チェックアウトの完了」まで多岐にわたりました。 主な調査結果とデータの解釈: 実験結果は非常にインパクトがあり、従来の HTML 方式の欠点を徹底的に明らかにしました。 A. 圧倒的な効率性と精度: HTML は完全に敗北しました。HTML を直接読み取った場合の F1 スコアはわずか 0.67 で、最も悪い結果となりました。 • 新しいインターフェースは大きな成果を上げました。RAG、MCP、NLWeb の平均 F1 スコアはいずれも 0.75 - 0.77 に向上しました。 • GPT-5 の優位性: 最も強力な GPT-5 モデルを RAG インターフェースで使用すると、F1 スコアは 0.87 と高くなり、タスク完了率は 80% に近くなります。 B. コストと速度の大きな違い • コストの節約 (トークンの使用): HTML 方式では、タスクごとに平均 240,000 トークンが消費されます (Web ページ コードが長すぎるため)。一方、他の 3 つの方式では、必要なトークンは 47,000 ~ 140,000 トークンのみです。 • 時間の節約(実行時間):HTML メソッドでは平均 291 秒(約 5 分)かかりますが、他のメソッドでは 50 ~ 60 秒しかかからず、5 倍高速です。 C. 最高のコストパフォーマンスの組み合わせに関する論文では、興味深い結論が指摘されています。GPT-5 + RAG は最高の効果を発揮しますが、コストパフォーマンス (コスト対効果) の観点からは、GPT-5-mini と RAG の組み合わせが現在のところ最高のバランスポイントです。 この論文は、詳細な洞察と業界への影響を提示し、将来の AI 開発と Web サイト構築の道を示しています。 HTMLはもはや過去のもの:複雑なエージェントタスクにおいて、AIにHTMLを直接解析させるのは極めて非効率的でコストもかかるため、今後のエージェント開発ではこのアプローチを可能な限り避けるべきです。 • 「AIフレンドリー」なウェブサイトがトレンドになる:ウェブサイトをより適切にインデックス化してAIアシスタント(ショッピングアシスタントや検索アシスタントなど)で利用したい場合、MCPやNLWebなどのインターフェースを提供するか、RAGに適応するようにコンテンツを最適化する必要があります。 • モデル機能への依存:実験の結果、MCPやNLWebのようなAPIや対話インタラクションに依存する手法は、モデルの推論能力に高い負荷をかけることが明らかになりました。GPT-5は、この点において、より単純なタスクよりも大きな優位性を示しました。 本稿は、AIエージェントの時代を迎えるためには、インターネットの「顔」を再構築する必要があると結論づけています。未来のインターネットは、人間(HTML)だけでなく、AI(MCP/NLWeb)にとっても重要なものとなるでしょう。開発者にとって、エージェントにWebページを「詰め込む」ようなやり方を捨て、より構造化されたデータインタラクションチャネルを構築することは、効率性を向上させる上で不可欠です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
