X (Twitter)

RAG는 사라졌나요? RAG는 계속 살아있습니다! — 지능형 에이전트 시대의 정밀 검색 @LightOnIO 팀의 "RAG는 죽었다. RAG여 영원하라"라는 글은 LLM의 급속한 발전 속에서 RAG의 진화를 탐구합니다. 저자들은 RAG가 긴 맥락적 시간(context window)으로 대체된 것이 아니라, 특히 에이전트 기반 AI 시스템 시대에 더욱 지능적이고 효율적인 "조건부 주의" 메커니즘으로 진화했다고 주장합니다. 핵심 주장: 긴 맥락이 RAG의 끝이 아니다. 이 글은 흔히 있는 오해를 다루는 것으로 시작합니다. 많은 사람들이 LLM의 확장된 맥락 창이 RAG를 불필요하게 만드는 이유는 모델이 엄청난 양의 정보를 한 번에 "삼킬" 수 있기 때문이라고 생각합니다. 그러나 저자들은 데이터와 비유를 통해 이러한 오해를 반박합니다. 긴 맥락은 강력하지만, 높은 비용, 비효율성, 그리고 성능 저하를 초래합니다. 예를 들어, 1,000페이지에 달하는 지식 베이스(약 60만 토큰) 전체를 단서에 몰아넣으면 핵심 정보가 묻히는 "주의 희석" 현상이 발생하는데, 이는 "중간에서 잃어버린(lost in the middle)" 현상과 유사합니다. HELMET과 같은 벤치마크 테스트는 긴 시퀀스에서 모델의 재현 정확도가 20~30%까지 떨어질 수 있음을 보여줍니다. 더 실질적으로는 비용 효율성에 관한 것입니다. 일반적인 워크로드(예: 하루 100건의 쿼리)의 경우, RAG는 5개의 대상 조각만 검색하면 되므로 긴 컨텍스트보다 8~82배 저렴하고 지연 시간도 짧습니다. 저자들은 다양한 시나리오를 시뮬레이션하는 온라인 계산기를 제공하여 캐싱을 고려하더라도 긴 컨텍스트의 생성 시간이 여전히 비용에 큰 영향을 미친다는 것을 보여줍니다. 비유하자면, 긴 컨텍스트는 회의에서 모든 사람을 초대하여 간단한 문제를 논의하는 것과 같고(비용이 급증), RAG는 전문가와 정확하게 상담하는 것과 같습니다(효율적이고 정확함). 다중 모드 및 조건부 검색: RAG의 업그레이드 경로 RAG의 재탄생은 지능형 에이전트 시대에 적응하여 "블라인드 검색"에서 "조건부 의사 결정"으로 전환하는 데 있습니다. 이 글에서는 이 스택형 아키텍처에 대한 계층적 분석을 제공합니다. • 검색 시점(IF): 상담원은 쿼리 유형, 시의성 및 보안 요구 사항에 따라 도구를 라우팅합니다. 예를 들어, "2+2"와 같은 간단한 산술 연산은 검색이 필요하지 않지만, 재무 보고서 쿼리는 활성화해야 합니다. • 검색할 내용(WHAT): 엔터티를 식별하고 쿼리를 다시 작성하여 메타데이터 필터링(시간 범위, 부서 등)을 추가하여 관련 없는 노이즈를 방지합니다. • 검색 위치 및 방법: 동적 전략 선택 - 코드 검색에는 어휘 검색(예: grep), 산문 검색에는 의미 혼합, 다중 모드 콘텐츠(예: 차트)에는 시각적 임베딩 모델 및 재정렬기(예: MonoQwen)를 사용합니다. 이를 통해 기존 도구의 한계를 극복할 수 있습니다. grep은 빠르지만 이미지나 공간 관계(예: "어떤 구성 요소가 케이스 위에 있습니까?")를 처리하는 데 어려움을 겪습니다. 멀티모달 처리는 또 다른 핵심입니다. 이 기사는 기업 데이터의 70% 이상이 일반 텍스트(예: 차트 및 코드)가 아니라고 지적합니다. 긴 컨텍스트는 이미지를 "볼" 수 있지만(이미지당 1~1.5K 토큰 필요), 비용이 급증하고 이해도도 피상적입니다. RAG는 메타데이터(사전 구축된 멀티모달 세트 등)를 오프라인에서 사전 컴파일하여 실시간의 효율적인 검색을 구현하고, 이를 통해 착시 현상을 줄이고 기업 적용성을 향상시킵니다. 평가 및 미래 전망: 파이프라인에서 지능형 생태계로. 저자는 RAG 시스템의 성공이 "세분화된 평가"에 달려 있다고 강조합니다. 즉, 단순히 종단 간 출력(정확도 등)을 살펴보는 것이 아니라 라우팅 F1 점수, 쿼리 이해도의 재현율 향상, 검색 정확도, 재순위화 전후 비교, 그리고 생성 정확도 등 단계별로 세분화하는 것입니다. 이를 통해 오류를 분리하고 최적화를 추진하며 "블랙박스" 딜레마를 피할 수 있습니다. 돌이켜보면, 이 기사는 RAG의 과대광고 주기를 다음과 같이 설명합니다. 2023년 정점(벡터 데이터베이스 붐)과 2024년~2025년 "죽음"이라는 수사(MCP, Claude Code의 grep)입니다. 하지만 이는 단지 진화 과정일 뿐입니다. 2025년까지 RAG는 지능형 에이전트에 깊이 통합되어 정적 파이프라인에서 동적 의사 결정 모듈로 전환되고, 전체 컨텍스트를 사용하는 일반화된 쿼리와 특정 검색을 사용하는 정밀 쿼리 등 긴 컨텍스트를 보완할 것으로 예측합니다. 결론적으로, 본 논문은 "사전 사고 검색"을 위한 지능형 파이프라인, 즉 사전 계산된 메타데이터, 하이브리드 전략, 그리고 멀티모달 도구를 제안합니다. 이는 단순한 기술적 반복이 아니라 AI가 지능형 에이전트로 전환되는 과정에서 불가피한 단계입니다. 효율적이고 신뢰할 수 있는 검색은 기업이 챗봇에서 복잡한 의사 결정 시스템으로 도약하는 데 도움을 줄 것입니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용