X (Twitter)

MCP, RAG, NLWeb 및 HTML 간의 대결: 다양한 에이전트 네트워크 상호 작용 인터페이스의 성능 및 효율성 비교 독일 만하임 대학의 연구에서는 핵심적인 질문을 탐구합니다. AI 에이전트가 웹 페이지를 "보는arxiv.org/pdf/2511.23281만 아니라, 더 빠르고 더 적은 비용으로 작업할 수 있을까요? 논문: https://t.co/KMiu8YQijy 주요 배경: 에이전트의 "독서 장애" 오늘날 온라인 세상에서 대부분의 웹사이트는 인간을 위해 디자인되었습니다(아름다운 레이아웃, 이미지, 복잡한 HTML 구조). AI 에이전트가 원시 HTML 코드를 "읽어" 작업을 완료하려고 시도하면 종종 어려움을 겪습니다. • 간섭이 너무 심함: HTML은 광고와 스타일 코드로 가득 차 있어 핵심 정보를 추출하기 어렵습니다. • 마인드 집약적(토큰): 이전에는 에이전트가 웹페이지 구조를 이해하기 위해 많은 수의 토큰을 소모해야 했기 때문에 속도가 느리고 비용이 많이 들었습니다. 4개의 경쟁사는 MCP, RAG, NLWeb, HTML입니다. • HTML - "날고기를 깨물다" - 에이전트가 브라우저처럼 웹페이지 소스 코드를 직접 읽습니다. 가장 전통적이지만 가장 번거로운 방법입니다. • RAG - "핵심 사항 강조"는 먼저 웹사이트 콘텐츠를 스크래핑하고 색인을 구축하는 것을 포함합니다. 담당자는 전체 기사가 아닌 질문에서 가장 관련성 높은 부분만 읽습니다. • MCP - "전용 채널" - 웹사이트는 표준 API 인터페이스 세트를 제공하고 에이전트는 이러한 표준 도구(예: "제품 검색" 및 "가격 확인")를 호출하여 상호 작용합니다. NLWeb(Direct Conversation)은 참신한 개념입니다. 상담원이 웹사이트에 자연어로 "어떤 그래픽 카드를 가지고 계신가요?"라고 직접 질문하면 웹사이트는 JSON 형식으로 답변합니다. 실험 설계 및 "미래" 모델 연구팀은 4개의 시뮬레이션된 전자상거래 웹사이트를 포함하는 WebMall이라는 테스트 플랫폼을 구축했습니다. GPT-5, GPT-5-mini, GPT-4.1, Claude Sonnet 4를 포함한 2025년 말의 최상위 모델을 테스트에 사용했습니다. 테스트 과제는 간단한 "가격 확인"부터 복잡한 "대체 제품 찾기"와 "결제 완료"까지 다양했습니다. 주요 결과 및 데이터 해석: 실험 결과는 매우 영향력이 크며 기존 HTML 방식의 단점을 철저히 드러냈습니다. A. 압도적인 효율성과 정확성: HTML은 완전히 패배했습니다. HTML을 직접 읽는 F1 점수는 0.67에 불과해 최악의 성능을 보였습니다. • 새로운 인터페이스가 큰 성과를 거두었습니다. RAG, MCP, NLWeb 모두 평균 F1 점수가 0.75~0.77로 향상되었습니다. • GPT-5의 우세성: RAG 인터페이스를 갖춘 가장 강력한 GPT-5 모델을 사용할 때 F1 점수는 최대 0.87이며, 작업 완료율은 80%에 가깝습니다. B. 비용과 속도의 엄청난 차이 • 비용 절감(토큰 사용): HTML 방식은 작업당 평균 240,000개의 토큰을 소모합니다(웹 페이지 코드가 너무 길기 때문). 반면 다른 세 가지 방식은 47,000~140,000개의 토큰만 필요합니다. • 시간(실행 시간) 절약: HTML 방식은 평균 291초(약 5분)가 걸리는 반면, 다른 방식은 50~60초만 걸리므로 5배 더 빠릅니다. C. 최적의 비용 대비 성능 조합에 대한 논문은 흥미로운 결론을 제시합니다. GPT-5 + RAG가 가장 효과적이기는 하지만 비용 대비 성능(비용 대 효과)의 관점에서 볼 때 현재로서는 GPT-5-mini와 RAG를 결합한 것이 가장 균형점이 좋습니다. 이 논문은 심층적인 통찰력과 산업적 의미를 제시하며 미래의 AI 개발과 웹사이트 구축 방향을 제시합니다. HTML은 과거의 유물입니다. 복잡한 에이전트 작업의 경우, AI가 HTML을 직접 파싱하는 것은 매우 비효율적이고 비용이 많이 듭니다. 향후 에이전트 개발에서는 이러한 접근 방식을 최대한 피해야 합니다. • "AI 친화적" 웹사이트가 트렌드가 될 것입니다. 웹사이트가 AI 도우미(쇼핑 도우미, 검색 도우미 등)에 의해 더 잘 인덱싱되고 사용되길 원한다면 MCP나 NLWeb과 같은 인터페이스를 제공하거나 RAG에 맞게 콘텐츠를 최적화해야 합니다. • 모델 기능 의존성: 실험 결과, API 또는 대화 상호작용에 의존하는 MCP 및 NLWeb과 같은 방법은 모델의 추론 기능에 더 큰 부담을 주는 것으로 나타났습니다. GPT-5는 이러한 측면에서 단순한 작업보다 더 큰 이점을 보여주었습니다. 이 논문은 AI 에이전트 시대를 맞이하기 위해서는 인터넷의 "얼굴"을 재구성해야 한다고 결론짓습니다. 미래 인터넷은 인간(HTML)만을 위한 것이 아니라 AI(MCP/NLWeb)를 위한 것이 될 것입니다. 개발자의 경우, 에이전트가 웹 페이지를 "압축"하는 관행을 버리고, 대신 더욱 구조화된 데이터 상호작용 채널을 구축하는 것이 효율성 향상에 필수적입니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용