X (Twitter)

최고의 AI 팀으로부터 "컨텍스트 엔지니어링"을 배우세요 우리는 "정보 정화, 상태 동기화, 동적 가지치기 및 성능 가속"이라는 네 가지 방법을 통해 "인지, 필터링, 정제 및 지속성"을 갖춘 AI 에이전트를 생성합니다. I. 정보 정제: 모델이 가치 있는 배경 신호만 수신하도록 보장합니다. 컨텍스트 엔지니어링에서 신호 대 잡음비(SNR)는 에이전트의 추론 능력의 상한선을 결정합니다. 모델이 방대한 코드베이스나 긴 문서를 처리할 때, 단순한 RAG 벡터 매칭만으로는 더 이상 충분하지 않습니다. 1. 의미 완성 Anthropic과 Chroma의 연구에 따르면 기존의 단편 검색 방식은 정보 사일로를 초래합니다. 컨텍스트 엔지니어링의 핵심은 "전처리"에 있는데, 이는 모델을 사용하여 정보를 저장하기 전에 각 정보 단편에 전역 컨텍스트를 주입하는 것을 의미합니다. 예를 들어, 코드 조각을 인덱싱할 때 컨텍스트 엔지니어링은 프로젝트 아키텍처 정보를 포함하도록 하여 검색된 콘텐츠가 "자체 설명적"이 되도록 합니다. 2. 동적 재정렬 컨텍스트 엔지니어링은 검색 결과의 원래 순위를 신뢰하지 않습니다. 정보가 모델 컨텍스트에 들어가기 전에 "정제" 과정을 거쳐야 함을 강조합니다. 경량 모델은 검색된 상위 N개 결과를 2차 평가하여 현재 명령 논리와 관련 없는 방해 요소를 제거함으로써 모델이 긴 텍스트에서 길을 잃는 것을 방지합니다. II. 상태 동기화: 외부 실행 환경을 모델의 인지에 실시간으로 매핑. 성숙한 에이전트는 단순히 대화 상자 안에만 존재해서는 안 됩니다. 컨텍스트 엔지니어링의 두 번째 핵심은 "물리적 환경"을 모델의 인지에 실시간으로 매핑하는 것입니다. 1. 실시간 시스템 이미지 클라인과 마누스의 사례는 컨텍스트 엔지니어링이 파일 트리, 터미널 출력, 심지어 현재 UI 상태까지 실시간으로 컨텍스트에 통합해야 함을 보여줍니다. 즉, 컨텍스트는 더 이상 정적인 텍스트가 아니라 동적으로 업데이트되는 "대시보드"가 되어야 합니다. 모델이 작업을 완료한 후에는 환경 피드백(성공, 오류 또는 출력)이 표준화된 형식으로 컨텍스트 끝에 즉시 표시되어야 합니다. 2. 목표 반영 및 작업 고정: 긴 경로의 작업에서 모델은 "표류"하기 쉽습니다. 뛰어난 컨텍스트 엔지니어링은 컨텍스트의 주요 지점(예: 대화 종료 또는 시스템 프롬프트)에 현재의 주요 목표를 반복적으로 고정합니다. "목표 반영"이라고 하는 이 기법은 모델이 복잡한 하위 작업을 처리할 때 항상 초기 사용자 의도를 기억하도록 보장합니다. 3. 동적 가지치기: 중복 메모리를 가지치기하여 장기적인 논리적 컨텍스트 공간을 유지하는 것은 비용이 많이 들고 "컨텍스트 손상" 문제가 발생합니다. 대화 라운드 수가 증가함에 따라 초기에 불필요하게 탐색된 정보가 이후 결정에 영향을 미칠 수 있습니다. 1. 자동 압축 및 상태 증류 Ampcode와 Cline은 "엔트로피 감소" 전략을 제안합니다. 컨텍스트가 미리 설정된 임계값에 가까워지면 시스템은 자동으로 "정제" 메커니즘을 작동시켜, 역사의 사소한 세부 사항을 논리적으로 요약하고 핵심 사실과 최종 결론만 남깁니다. 이 방법을 통해 원래 길었던 컨텍스트를 "슬라이딩 요약"을 통해 간결하고 기억하기 쉬운 요점으로 변환할 수 있습니다. 2. 컨텍스트 분기 및 태스크 격리: 복잡한 문제의 경우, 컨텍스트 엔지니어링은 "분기" 전략을 채택합니다. 메인 태스크가 독립적인 서브태스크를 생성할 때, 시스템은 서브태스크에 필요한 전역 변수만 포함하는 깨끗한 컨텍스트 환경을 복제합니다. 이는 태스크 간의 격리를 달성하고 서로 다른 논리적 스레드가 동일한 컨텍스트 창에서 충돌하는 것을 방지합니다. IV. 성능 가속: 캐싱 메커니즘을 활용한 응답 속도와 비용 균형 유지 마지막으로 실행 성능 문제가 있습니다. 컨텍스트 엔지니어링은 정확성뿐만 아니라 속도와 비용까지 고려합니다. 1. **단어 캐싱:** 이는 Anthropic과 같은 회사들이 주도한 최근 가장 중요한 엔지니어링 발전입니다. 컨텍스트 엔지니어링에서 시스템 프롬프트, 프로젝트 기본 코드, 자주 사용되는 라이브러리 문서와 같은 기존 정보는 여러 라운드에 걸쳐 반복적으로 사용됩니다. 이러한 "접두사 콘텐츠"를 캐싱함으로써 모델은 새로운 입력을 처리할 때 반복되는 부분의 어텐션 가중치를 다시 계산할 필요가 없습니다. 이는 첫 단어 생성 지연 시간을 크게 줄일 뿐만 아니라 추론 비용도 직접적으로 낮춥니다. 2. 최소주의 스레딩 및 키-값 캐싱 재사용 마누스와 그의 팀은 "추가 지향적" 컨텍스트를 강조했습니다. 컨텍스트 구조를 신중하게 설계함으로써, 각 새로운 상호 작용은 이전 상호 작용을 덮어쓰는 것이 아니라 선형적으로 추가하는 방식으로 이루어집니다. 이러한 엔지니어링 접근 방식은 서버 측 키-값 캐시의 재사용을 극대화하여, 에이전트가 대규모 코드베이스를 처리할 때에도 밀리초 수준의 응답 시간을 유지할 수 있도록 합니다. 요약하자면, 컨텍스트 엔지니어링의 궁극적인 목표는 "인지, 필터링, 정제 및 지속성"을 갖춘 AI 에이전트를 위한 동적 메모리 시스템을 구축하는 것입니다. 정화는 "무엇을 봐야 할까"라는 문제를 해결합니다. • 이는 동시에 "너무 많은 것을 보는" 문제를 해결했습니다. • 거버넌스 접근 방식은 "정확하게 예측할 수 있는 능력"이라는 문제를 해결했습니다. • 효율성은 "얼마나 빨리 봐야 할까"라는 문제를 해결합니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용