X (Twitter)

주류 AI 애플리케이션은 "메모리"를 어떻게 처리하나요? • ChatGPT: 완벽한 데이터 주입 및 간편한 요약 기능 - 더욱 세심한 파트너 • Claude: 온디맨드 검색 및 도구 접근 - 더욱 강력한 도우미 @manthanguptaa는 "리버스 엔지니어링"을 통해 ChatGPT와 Claude의 메모리 및 컨텍스트 관리 메커니즘에 대한 심층적인 연구를 수행했으며, 예상치 못하게 완전히 다른 두 가지 방식, 즉 "사전 계산 주입"(ChatGPT)과 "요청 시 검색 도구"(Claude)를 발견했습니다. ChatGPT의 메모리 구성 방식: 완전 주입 및 경량 요약 ChatGPT의 핵심 논리는 "모든 대화에 사용자의 배경 정보와 최근 활동 요약을 포함하는 것"입니다. 모델이 기억에서 정보를 찾아볼지 여부를 "생각"하도록 하는 대신, 시스템이 관련 정보를 각 대화에 강제로 삽입합니다. 핵심 아키텍처(4계층 구조) 1. 세션 메타데이터 [임시] • 콘텐츠: 기기 유형, 브라우저, 대략적인 위치, 시간대, 구독 수준, 심지어 사용 습관(예: 평균 대화 깊이 및 자주 사용하는 모델)까지 포함됩니다. • 특징: 일회성으로 주입되며 세션이 종료되면 삭제됩니다. 이를 통해 모델은 현재 대화 중에 사용자의 환경(예: 다크 모드, 화면 크기)에 따라 응답을 조정할 수 있지만 장기 메모리에 저장되지는 않습니다. 2. 사용자 메모리 [장기] • 내용: 명확한 사실. 예를 들어, "제 이름은 만탄입니다.", "저는 프로그래머입니다.", "저는 고수를 싫어합니다." 작동 방식: 데이터 추가, 삭제 및 수정 전용 도구가 있습니다. "제 이름은 X입니다."라고 말하면 저장됩니다. 또한 시스템은 대화를 기반으로 주요 정보를 자동으로 캡처하여 저장하도록 요청합니다. • 사용법: 이러한 정보는 시스템에서 관리하는 "아카이브"에 기록되며, 각 대화 내용은 프롬프트에 완전히 삽입됩니다. 3. 최근 대화 요약 [모든 대화 내용 포함] • 콘텐츠: ChatGPT를 진정으로 독특하게 만드는 것은 바로 이 부분입니다. 과거 대화 전체를 가져오는 대신, 최근 10~15개 대화의 간략한 요약본을 미리 계산하여 제공합니다(형식: 타임스탬프: 제목 || 사용자가 말한 내용 일부). • 특징: 사용자 게시글 요약만 포함하고 AI 답변은 포함하지 않습니다. 이는 마치 "관심사 지도"처럼 작동하여, 모델이 사용자의 현재 관심사를 파악하는 데 도움을 줍니다. 이를 통해 모델은 이전 게시글 전체를 읽는 데 많은 토큰을 소모하지 않고도 원하는 정보를 얻을 수 있습니다. 4. 현재 세션 창 내용: 토큰 제한까지 현재 대화의 전체 기록이 표시됩니다. 클로드의 기억 체계: 필요에 따른 정보 검색 및 도구 접근 클로드의 해결책은 마치 "검색 엔진을 가진 전문가"와 같습니다. 기본적으로 이전 대화 기록을 불러오지 않고, 필요할 때만 "이전 메시지를 찾아냅니다". 핵심 아키텍처 1. 사용자 메모리 [장기] • 콘텐츠: ChatGPT와 유사하게 이름, 직업, 선호도 등과 같은 주요 정보를 저장합니다. • 형식: XML 형식(...)으로 시스템 프롬프트에 삽입됩니다. • 메커니즘: 암묵적인 백그라운드 업데이트와 명시적인 사용자 편집을 지원합니다. 2. 현재 세션 내용: 현재 대화의 전체 기록. 3. 과거 데이터 검색 도구 [핵심 차이점] Claude는 이전 대화 요약을 프롬프트에 자동으로 포함하지 않습니다. 대신, 모델이 언제 호출할지 자율적으로 결정하는 두 가지 전용 도구를 제공합니다. • conversation_search: 키워드 또는 주제를 기반으로 이전 대화를 검색합니다. • recent_chats: 최근 대화 목록을 시간 순서대로 불러옵니다. • 프로세스: 사용자가 질문을 합니다 -> 클로드는 "이전 대화를 참조해야 할까요?"라고 생각합니다 -> 만약 그렇다면 -> 도구를 사용하여 관련 정보를 검색합니다 -> 특정 부분을 얻습니다 -> 사용자에게 답변합니다. 장점, 단점 및 사용 시나리오 1. ChatGPT 이점: • 매끄러운 전환: 사용자 경험이 매우 부드럽습니다. 다른 주제로 이동하더라도 요약을 통해 전반적인 배경 지식을 파악할 수 있습니다. • 빠름: 추가 검색 단계가 필요하지 않습니다. 결점: • 세부 정보 손실: 요약 정보만 저장하고, 그것도 사용자 의견의 요약 정보만 저장하기 때문에, 이전에 제공했던 구체적인 코드 해결책을 기억하지 못하고 일반적인 아이디어만 기억할 수 있습니다. • 방해 위험: 때때로 관련 없는 이전 요약 내용이 현재 작업에 방해가 될 수 있습니다. 최상의 시나리오: • 가벼운 대화나 친목을 위한 용도: 사용자의 사소한 취향을 기억해야 합니다. • 멀티태스킹: 여러 가지 질문을 동시에 하고 있으며, 질문 사이를 빠르게 전환해야 합니다. • 간단하고 지속적인 작업: 예를 들어 "지난주 이야기를 이어서"와 같은 작업은 요약을 훑어보는 것만으로도 중단했던 부분부터 다시 시작할 수 있습니다. 2. 클로드 이점: • 높은 정확도: 검색 기능을 통해 모호한 요약이 아닌, 몇 달 전 대화에서 특정 JSON 구조나 특정 논리적 설정을 정확하게 찾아낼 수 있습니다. • 깔끔한 컨텍스트: 기본적으로 관련 없는 기록은 로드되지 않으므로 토큰을 절약할 뿐만 아니라 이전 정보로 인한 간섭을 방지할 수 있습니다. 결점: • 충분히 적극적이지 않음: 모델이 실수를 저지르고 "이력을 확인할 필요가 없다"고 판단하면, 마치 기억상실증에 걸린 것처럼 답변할 것입니다. • 느림: 도구 호출에 시간이 걸립니다. 최상의 시나리오: • 장기 프로젝트 개발: 예를 들어 코드를 작성할 때 "지난달에 작성한 인증 모듈을 재사용"하고 싶다면 특정 코드를 찾을 수 있습니다. • 지식 기반 검색: 과거에 축적된 수많은 메모를 심층적으로 통합하려면 이 기능이 필요합니다. • 복잡한 논리적 작업: 매우 높은 문맥 정확도가 요구되며, 모호한 요약을 허용할 수 없습니다. 추가적인 비교 관점: 기억의 "해상도"와 "제어 가능성". 기사에 언급된 내용 외에도 주목할 만한 두 가지 관점이 더 있다고 생각합니다. 1. 메모리 해상도: ChatGPT는 "저해상도" 썸네일 방식입니다. 채팅 중에 최근 10개 대화의 썸네일만 살펴봅니다. 전체적인 개요는 파악할 수 있지만 세부적인 내용은 볼 수 없습니다. • 클로드는 "고정밀" 탐조등과 같습니다. 평소에는 어둠 속에 있지만(역사를 바라보지 않지만), 일단 탐조등이 켜지면(탐색 중일 때) 과거의 특정 부분을 비춰 선명하게 볼 수 있습니다. 2. 개발자 관점 vs. 사용자 관점: ChatGPT의 솔루션은 완성도 높은 "제품 기능"에 가깝습니다. OpenAI는 이를 잘 패키징하여 사용자에게는 보이지 않고, 사용자 경험은 일관적이며, 목적은 사용자를 유지하고 활동을 늘리는 것입니다. 클로드의 접근 방식은 "에이전트 기능"에 더 가깝습니다. Anthropic은 모델에 도구를 사용할 수 있는 능력을 부여하는데, 이는 에이전트 개발 방향과 더 잘 부합합니다. 즉, 모델은 단순히 대화만 하는 것이 아니라 (메모리 도구를 포함한) 도구를 사용하여 문제를 해결합니다. 이는 향후 매우 긴 컨텍스트와 방대한 지식 기반을 처리할 때 훨씬 더 큰 잠재력을 발휘할 것입니다. 원본 블로그 게시물

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용