RAG -> 에이전트 RAG -> 에이전트 메모리 특히 @helloiamleonie의 블로그를 좋아합니다. 이 글은 AI 시스템에서 정보 검색 및 저장 메커니즘의 점진적인 진화를 탐구합니다. 단순화된 멘탈 모델을 기반으로 정적 검색에서 동적 메모리 관리로의 전환을 설명하며, LLM이 외부 도구를 사용하여 컨텍스트 창을 넘어 정보를 처리하는 방식을 이해하는 데 도움을 줍니다. 이러한 진화의 핵심은 "읽기 전용" 작업에서 "읽기-쓰기" 기능으로의 전환이며, 이를 통해 더욱 개인화되고 적응적인 AI 에이전트를 구현할 수 있다는 것입니다. RAG: 일회성 읽기 전용 검색의 시작점. 먼저 2020년에 제안되어 2023년에 주목을 받고 있는 기반 기술인 RAG를 살펴보겠습니다. RAG는 외부 벡터 데이터베이스에 지식을 주입함으로써 LLM의 "환상" 문제를 해결합니다. RAG의 프로세스는 두 단계로 구성됩니다. 문서를 임베드하고 저장하는 오프라인 단계와, 쿼리를 기반으로 관련 컨텍스트를 검색하고 힌트와 결합하여 응답을 생성하는 온라인 단계입니다. 예를 들어, 의사코드는 그 단순성을 보여줍니다. • 문서를 저장할 때 내장 파일을 생성하여 데이터베이스에 저장합니다. • 질의에 답할 때 상위 k 결과를 한 번에 검색하여 프롬프트에 삽입하여 출력을 생성합니다. RAG는 착시 현상을 줄이는 데 효과적이지만, 상당한 한계가 있습니다. "일회성" 솔루션이기 때문에 검색의 필요성이나 관련성을 평가할 수 없고, 지식 출처가 단일하며, 학습 메커니즘이 부족하여 상호작용을 반복할 수 없습니다. 따라서 간단한 질의응답 시나리오에는 적합하지만, 복잡하고 지속적인 대화 시나리오에는 적합하지 않습니다. Agentic RAG: 도구 호출을 통한 동적 읽기 전용. RAG의 경직성을 극복하기 위해 본 논문에서는 Agentic RAG를 소개합니다. Agentic RAG는 검색을 에이전트가 호출할 수 있는 "도구"로 취급합니다. 에이전트는 더 이상 수동적으로 데이터를 검색하는 것이 아니라, 데이터베이스 검색이나 웹 쿼리와 같은 도구를 호출할지 여부를 능동적으로 결정하고 결과의 관련성을 평가합니다. 이는 루프 메커니즘을 도입합니다. LLM은 응답을 생성하고, 필요한 경우 도구를 실행하고, 도구가 더 이상 필요하지 않을 때까지 결과를 반환합니다. 의사코드에서 에이전트는 도구 호출(예: SearchTool)을 통해 동적으로 정보를 검색하고, 메시지 기록은 점진적으로 누적됩니다. 이를 통해 유연성이 향상되어 에이전트는 적절한 도구를 선택하고 관련 없는 정보를 주입하지 않아도 됩니다. 하지만 "읽기 전용" 수준으로 유지됩니다. 즉, 정보는 오프라인으로만 저장되고, 실시간으로 수정하거나 개인화할 수 없으며, 사용자 상호작용을 통해 "학습"할 수 없습니다. 에이전트 메모리: 읽기-쓰기 작업의 핵심 혁신은 Agentic RAG를 읽기-쓰기 시스템으로 확장하는 에이전트 메모리에 있습니다. WriteTool과 같은 "쓰기 도구"를 추가하면 에이전트는 정보를 검색할 뿐만 아니라 저장, 업데이트 또는 삭제할 수도 있습니다. 이를 통해 상호작용을 통해 학습하는 순환 고리가 형성됩니다. 예를 들어, 사용자 선호도(예: 이모티콘 사용 습관)나 이벤트(예: 생일)를 기록하고 후속 대화에서 이를 검색할 수 있습니다. 의사코드는 이러한 루프를 보여줍니다. 응답에서 쓰기 작업이 수행되면 해당 정보가 데이터베이스에 저장되고 확인 메시지가 전송됩니다. 이는 이전 두 가지 접근 방식의 문제점을 직접적으로 해결합니다. 동적 저장은 실시간 적응을 지원하고, 개인화된 검색은 사용자 경험을 향상시킵니다. 이 글에서는 에이전트가 대화 요약이나 원본 기록을 저장하여 단순한 "회상"이 아닌 "기억" 기능을 구현할 수 있는 예를 제시합니다. 단순화된 모델의 한계와 실제적 고려 사항 레오니는 이 모델이 단순화되었으며 다중 소스 메모리(예: 얼굴 표정 사용과 같은 절차적 메모리, 사용자 이동 계획과 같은 일화적 메모리, 사실적 지식과 같은 의미적 메모리)나 고급 관리 전략(예: MemGPT의 메모리 병합 및 망각)을 포함하지 않는다는 점을 인정합니다. 이 모델은 강력하지만, 메모리 손상(오래된 정보의 간섭)이나 관리 부담과 같은 새로운 위험을 야기합니다. 실제 구현에는 확장성을 보장하기 위해 이벤트 감지, 요약 생성 및 기타 기술을 결합해야 합니다. 기사 주소
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
