X (Twitter)

Um confronto entre MCP, RAG, NLWeb e HTML: uma comparação do desempenho e da eficiência de diferentes interfaces de interaçarxiv.org/pdf/2511.23281 Uma pesquisa da Universidade de Mannheim, na Alemanha, explora uma questão fundamental: como os agentes de IA devem "visualizar" páginas da web para que não apenas as compreendam, mas também trabalhem com rapidez e a um custo menor? Artigo: https://t.co/KMiu8YQijy Contexto principal: O "Distúrbio de Leitura" do agente No mundo online atual, a grande maioria dos sites é projetada para humanos (layouts atraentes, imagens, estruturas HTML complexas). Quando um agente de IA tenta concluir uma tarefa "lendo" o código HTML bruto, geralmente encontra dificuldades. • Interferência excessiva: o HTML está repleto de anúncios e código de estilo, dificultando a extração das informações principais. • Computação intensiva (Token): Anteriormente, os agentes precisavam consumir um grande número de tokens para entender a estrutura da página da web, resultando em baixa velocidade e alto custo. Os quatro concorrentes são MCP, RAG, NLWeb e HTML. • HTML - “Morder carne crua” - O agente lê o código-fonte da página web diretamente, tal como um navegador. Este é o método mais tradicional, mas também o mais trabalhoso. • RAG - "Destacar os pontos principais" envolve primeiro extrair o conteúdo do site e construir um índice. O Agente lê apenas as partes mais relevantes da pergunta, não o artigo inteiro. • MCP - "Canal Dedicado" - O site fornece um conjunto padrão de interfaces de API, e o Agente interage chamando essas ferramentas padrão (como "buscar produtos" e "obter preços"). NLWeb – “Conversa Direta” – é um conceito inovador. Um agente pergunta diretamente a um site em linguagem natural: “Quais placas gráficas você tem?”, e o site responde em JSON. A equipe de pesquisa de design experimental e modelos "futuros" construiu uma plataforma de testes chamada WebMall, que inclui quatro sites de comércio eletrônico simulados. Para os testes, foram utilizados modelos de ponta previstos para o final de 2025, incluindo GPT-5, GPT-5-mini, GPT-4.1 e Claude Sonnet 4. As tarefas de teste variaram desde simples "verificar preços" até tarefas complexas como "encontrar produtos alternativos" e "finalizar a compra". Principais conclusões e interpretação dos dados: Os resultados experimentais são muito impactantes, expondo completamente as deficiências dos métodos tradicionais de HTML: A. Eficiência e precisão impressionantes: HTML completamente derrotado: a pontuação F1 para leitura direta de HTML é de apenas 0,67, tornando-o o de pior desempenho. • As novas interfaces são as grandes vencedoras: RAG, MCP e NLWeb viram suas pontuações F1 médias melhorarem para 0,75 a 0,77. • Domínio do GPT-5: Ao usar o modelo GPT-5 mais poderoso com a interface RAG, a pontuação F1 chega a 0,87 e a taxa de conclusão da tarefa se aproxima de 80%. B. Grandes diferenças em custo e velocidade • Economia de dinheiro (uso de tokens): O método HTML consome em média 240.000 tokens por tarefa (porque o código da página da web é muito longo); enquanto os outros três métodos exigem apenas de 47.000 a 140.000 tokens. • Economiza tempo (tempo de execução): O método HTML leva em média 291 segundos (quase 5 minutos); enquanto outros métodos levam apenas 50 a 60 segundos, o que é 5 vezes mais rápido. C. O artigo sobre a melhor combinação custo-benefício aponta uma conclusão interessante: embora GPT-5 + RAG tenha o melhor efeito, da perspectiva de custo-benefício (custo versus efeito), GPT-5-mini combinado com RAG é atualmente o melhor ponto de equilíbrio. Este artigo, que oferece análises aprofundadas e implicações para a indústria, aponta o caminho para o futuro do desenvolvimento de IA e da construção de websites: HTML é coisa do passado: para tarefas complexas de agentes, fazer com que a IA analise HTML diretamente é extremamente ineficiente e caro. O desenvolvimento futuro de agentes deve evitar essa abordagem ao máximo. • Sites "amigáveis à IA" se tornarão uma tendência: Se os sites desejam ser melhor indexados e utilizados por assistentes de IA (como assistentes de compras e assistentes de busca), eles devem fornecer interfaces como MCP ou NLWeb, ou otimizar seu conteúdo para se adaptar ao RAG. • Dependência das capacidades do modelo: Experimentos revelaram que métodos como MCP e NLWeb, que dependem de APIs ou interações de diálogo, exigem mais das capacidades de raciocínio do modelo. O GPT-5 demonstrou uma vantagem mais significativa nesse aspecto do que em tarefas mais simples. Este artigo conclui que, para abraçarmos a era dos agentes de IA, precisamos reestruturar a "face" da internet. A internet do futuro não será apenas para humanos (HTML), mas também para IA (MCP/NLWeb). Para os desenvolvedores, abandonar a prática de fazer com que os agentes "preencham" páginas da web e, em vez disso, construir canais de interação de dados mais estruturados é essencial para melhorar a eficiência.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread