X (Twitter)

Un enfrentamiento entre MCP, RAG, NLWeb y HTML: una comparación del rendimiento y la eficiencia de diferentes interfaces dearxiv.org/pdf/2511.23281agentes Una investigación de la Universidad de Mannheim en Alemania explora una pregunta central: ¿Cómo deberían los agentes de IA “ver” las páginas web para que no solo puedan entenderlas, sino también trabajar rápidamente y costar menos? Documento: https://t.co/KMiu8YQijy Contexto clave: El «trastorno de lectura» del agente En el mundo digital actual, la gran mayoría de los sitios web están diseñados para humanos (diseños atractivos, imágenes, estructuras HTML complejas). Cuando un agente de IA intenta completar una tarea "leyendo" el código HTML sin procesar, suele tener dificultades. • Demasiada interferencia: HTML está lleno de anuncios y códigos de estilo, lo que dificulta la extracción de la información principal. • Uso intensivo de la mente (token): anteriormente, los agentes necesitaban consumir una gran cantidad de tokens para comprender la estructura de la página web, lo que generaba baja velocidad y altos costos. Los cuatro concursantes son MCP, RAG, NLWeb y HTML. • HTML - "Mordiendo carne cruda" - El agente lee el código fuente de la página web directamente, como un navegador. Este es el método más tradicional, pero también el más engorroso. • RAG - "Resaltar los puntos clave" implica primero extraer el contenido del sitio web y crear un índice. El agente solo lee las partes más relevantes de la pregunta, no el artículo completo. • MCP - "Canal dedicado" - El sitio web proporciona un conjunto estándar de interfaces API, y el Agente interactúa llamando a estas herramientas estándar (como "buscar productos" y "obtener precios"). NLWeb (Conversación Directa) es un concepto novedoso. Un agente pregunta directamente a un sitio web en lenguaje natural: "¿Qué tarjetas gráficas tienes?", y el sitio web responde en JSON. El equipo de investigación de diseño experimental y modelos de futuro construyó una plataforma de pruebas llamada WebMall, que incluye cuatro sitios web de comercio electrónico simulados. Para las pruebas, utilizaron modelos de primer nivel de finales de 2025, como GPT-5, GPT-5-mini, GPT-4.1 y Claude Sonnet 4. Las tareas de prueba variaron desde el simple "verificar precios" hasta el complejo "encontrar productos alternativos" y "completar el pago". Hallazgos clave e interpretación de los datos: Los resultados experimentales son muy impactantes y exponen exhaustivamente las deficiencias de los métodos HTML tradicionales: A. Eficiencia y precisión abrumadoras: HTML completamente derrotado: la puntuación F1 para la lectura directa de HTML es solo 0,67, lo que lo convierte en el de peor rendimiento. • Las nuevas interfaces son un gran ganador: RAG, MCP y NLWeb vieron sus puntajes F1 promedio mejorar a 0,75 - 0,77. • Dominio de GPT-5: al utilizar el modelo GPT-5 más potente con la interfaz RAG, la puntuación F1 es tan alta como 0,87 y la tasa de finalización de tareas es cercana al 80%. B. Grandes diferencias en costo y velocidad • Ahorro de dinero (uso de tokens): el método HTML consume un promedio de 240.000 tokens por tarea (porque el código de la página web es demasiado largo); mientras que los otros tres métodos solo requieren entre 47.000 y 140.000 tokens. • Ahorra tiempo (tiempo de ejecución): el método HTML tarda un promedio de 291 segundos (casi 5 minutos); mientras que otros métodos solo tardan entre 50 y 60 segundos, lo que es 5 veces más rápido. C. El artículo sobre la mejor combinación costo-rendimiento señala una conclusión interesante: aunque GPT-5 + RAG tiene el mejor efecto, desde la perspectiva de costo-rendimiento (costo vs. efecto), GPT-5-mini combinado con RAG es actualmente el mejor punto de equilibrio. Este documento, que ofrece información detallada e implicaciones para la industria, señala el camino para el desarrollo futuro de la IA y la construcción de sitios web: El HTML es cosa del pasado: Para tareas complejas de agentes, que la IA analice HTML directamente resulta extremadamente ineficiente y costoso. El desarrollo futuro de agentes debería evitar este enfoque en la medida de lo posible. • Los sitios web “compatibles con IA” se convertirán en una tendencia: si los sitios web quieren estar mejor indexados y ser utilizados por los asistentes de IA (como los asistentes de compras y los asistentes de búsqueda), deben proporcionar interfaces como MCP o NLWeb, u optimizar su contenido para adaptarse a RAG. • Dependencia de las capacidades del modelo: Los experimentos revelaron que métodos como MCP y NLWeb, que se basan en API o interacciones de diálogo, exigen mayores capacidades de razonamiento del modelo. GPT-5 demostró una ventaja más significativa en este aspecto que en tareas más sencillas. Este artículo concluye que, para dar la bienvenida a la era de los agentes de IA, necesitamos reestructurar la imagen de internet. El internet del futuro no será solo para humanos (HTML), sino también para IA (MCP/NLWeb). Para los desarrolladores, abandonar la práctica de que los agentes llenen las páginas web y, en su lugar, construir canales de interacción con datos más estructurados es esencial para mejorar la eficiencia.

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo