X (Twitter)

Duel entre MCP, RAG, NLWeb et HTML : Comparaison des performances et de l’efficacité de différentes interfaces d’interactioarxiv.org/pdf/2511.23281 recherches menées par l'Université de Mannheim en Allemagne explorent une question fondamentale : comment les agents d'IA doivent-ils « visualiser » les pages Web afin qu'ils puissent non seulement les comprendre, mais aussi travailler rapidement et à moindre coût ? Article : https://t.co/KMiu8YQijy Contexte clé : Le « trouble de la lecture » de l'agent Dans le monde numérique actuel, la grande majorité des sites web sont conçus pour les humains (mises en page soignées, images, structures HTML complexes). Lorsqu'un agent d'IA tente d'accomplir une tâche en « lisant » le code HTML brut, il rencontre souvent des difficultés. • Trop d'interférences : le HTML est rempli de publicités et de code de style, ce qui rend difficile l'extraction des informations essentielles. • Utilisation intensive de l'intelligence (Jeton) : Auparavant, les agents devaient consommer un grand nombre de jetons pour comprendre la structure de la page Web, ce qui entraînait une lenteur et un coût élevé. Les quatre concurrents sont MCP, RAG, NLWeb et HTML. • HTML – « Mordre dans de la viande crue » – L’agent lit directement le code source de la page web, comme un navigateur. C’est la méthode la plus traditionnelle, mais aussi la plus fastidieuse. • RAG – « Mise en évidence des points clés » implique d’abord l’extraction du contenu du site web et la création d’un index. L’agent ne lit que les parties les plus pertinentes de la question, et non l’article entier. • MCP - « Canal dédié » - Le site Web fournit un ensemble standard d'interfaces API, et l'agent interagit en appelant ces outils standard (tels que « rechercher des produits » et « obtenir les prix »). NLWeb – « Conversation directe » – est un concept novateur. Un agent interroge directement un site web en langage naturel : « Quelles cartes graphiques possédez-vous ? », et le site web répond au format JSON. L'équipe de recherche en conception expérimentale et modélisation prospective a créé une plateforme de test appelée WebMall, qui comprend quatre sites web de commerce électronique simulés. Pour les tests, elle a utilisé des modèles de pointe datant de fin 2025, notamment GPT-5, GPT-5-mini, GPT-4.1 et Claude Sonnet 4. Les tâches de test allaient de la simple « vérification des prix » à des tâches complexes comme « recherche de produits alternatifs » et « finalisation de la commande ». Principaux résultats et interprétation des données : Les résultats expérimentaux sont très significatifs et mettent en évidence les lacunes des méthodes HTML traditionnelles : A. Efficacité et précision écrasantes : HTML totalement vaincu : le score F1 pour la lecture directe de HTML n’est que de 0,67, ce qui en fait le moins performant. • Les nouvelles interfaces sont un grand succès : RAG, MCP et NLWeb ont toutes vu leurs scores F1 moyens s'améliorer à 0,75 - 0,77. • Domination de GPT-5 : Lorsqu’on utilise le modèle GPT-5 le plus puissant avec l’interface RAG, le score F1 atteint 0,87 et le taux d’achèvement des tâches est proche de 80 %. B. Différences importantes en termes de coût et de rapidité • Économies (utilisation des jetons) : La méthode HTML consomme en moyenne 240 000 jetons par tâche (car le code de la page Web est trop long) ; tandis que les trois autres méthodes ne nécessitent que 47 000 à 140 000 jetons. • Gain de temps (temps d'exécution) : La méthode HTML prend en moyenne 291 secondes (près de 5 minutes) ; tandis que les autres méthodes ne prennent que 50 à 60 secondes, soit 5 fois plus rapide. C. L'article sur la meilleure combinaison coût-performance met en évidence une conclusion intéressante : bien que GPT-5 + RAG ait le meilleur effet, du point de vue du rapport coût-performance (coût par rapport à l'effet), GPT-5-mini combiné avec RAG représente actuellement le meilleur point d'équilibre. Ce document, qui offre des analyses approfondies et des implications pour l'industrie, ouvre la voie au développement futur de l'IA et à la construction de sites web : Le HTML est dépassé : pour les tâches complexes des agents, l’analyse directe du HTML par l’IA est extrêmement inefficace et coûteuse. Les futurs développements d’agents devraient éviter cette approche autant que possible. • Les sites web « compatibles avec l’IA » deviendront une tendance : si les sites web veulent être mieux indexés et utilisés par les assistants IA (tels que les assistants d’achat et les assistants de recherche), ils doivent fournir des interfaces telles que MCP ou NLWeb, ou optimiser leur contenu pour s’adapter à RAG. • Dépendance aux capacités du modèle : des expériences ont révélé que les méthodes comme MCP et NLWeb, qui s’appuient sur des API ou des interactions dialoguées, sollicitent davantage les capacités de raisonnement du modèle. GPT-5 a démontré un avantage plus marqué à cet égard que pour des tâches plus simples. Cet article conclut que pour aborder l'ère des agents d'IA, il est nécessaire de restructurer l'architecture d'Internet. L'Internet du futur ne sera plus seulement destiné aux humains (HTML), mais aussi à l'IA (MCP/NLWeb). Pour les développeurs, il est essentiel d'abandonner la pratique consistant à surcharger les pages web avec des agents et de privilégier la conception de canaux d'interaction de données plus structurés afin d'améliorer l'efficacité.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil