대규모 프로젝트를 진행하는 소프트웨어 팀을 상상해 보세요. 하지만 이상한 규칙이 있습니다. 각 엔지니어는 수십 분, 기껏해야 몇 시간만 작업할 수 있고, 그 후에는 새로운 엔지니어로 교체해야 합니다. 따라서 이 팀은 간단한 프로젝트 작업에는 적합하지만, claude.ai 파일을 복제하는 것처럼 오랜 시간이 걸리는 복잡한 프로젝트에서는 전혀 할 수 없습니다. 코딩 에이전트의 현재 상태는 기본적으로 다음과 같습니다. 메모리가 부족하고 컨텍스트 윈도우 길이가 제한되어 있습니다. 따라서 장기 실행 작업에는 적합하지 않습니다. Anthropic의 블로그 게시물 "장기 실행 에이전트를 위한 효과적인 하네스"에서는 에이전트가 여러 컨텍스트 창에서 작업을 계속 수행할 수 있도록 하는 방법을 구체적으로 설명합니다. 먼저, 에이전트가 긴 작업을 수행할 때 직면하는 주요 문제를 살펴보겠습니다. 주요 유형은 세 가지입니다. 첫 번째 유형은 한 번에 너무 많은 작업을 하려고 하는 것입니다. 예를 들어, 에이전트에게 claude.ai와 같은 웹사이트를 복제해 달라고 요청하면 전체 애플리케이션을 한 번에 완성하려고 시도합니다. 결과적으로 컨텍스트를 충분히 활용하지 못하고, 기능의 절반만 작성되었으며, 코드는 완전히 엉망이 됩니다. 다음 세션이 시작되면 미완성된 결과물을 멍하니 바라보며 이전 단계에서 무엇을 했는지 추측하는 데 많은 시간을 허비하게 됩니다. 두 번째 유형은 '미리 승리 선언'입니다. 프로젝트의 일부가 완료된 후, 이후 담당자가 환경을 확인하고 거의 완성되었다고 판단하여 작업을 중단합니다. 누락된 기능들이 모두 무시되는 것입니다. 세 번째 유형은 형식적인 테스트입니다. 에이전트는 코드를 수정하고, 몇 가지 단위 테스트를 실행하거나, 인터페이스를 컬링한 후 모든 것이 정상이라고 생각하지만, 실제 사용자처럼 처음부터 끝까지 모든 과정을 거치지는 않습니다. 이 세 가지 실패 모드의 공통점은 에이전트가 글로벌 목표를 인식하지 못하고, 어디에서 멈춰야 할지, 다음 에이전트에게 무엇을 남겨야 할지 모른다는 것입니다. 그렇다면 Anthropic의 솔루션은 무엇일까요? 기본적으로 소프트웨어 엔지니어링에서 쉽게 사용할 수 있는 솔루션은 다음과 같습니다. 인간 팀과 유사한 협업 메커니즘을 도입하고, 복잡한 작업을 더 작고 추적 가능하며 검증 가능한 작업으로 분할하고, 명확한 인계 메커니즘을 확립하고, 작업 결과를 엄격하게 검증하는 것입니다. 초기화 에이전트는 프로젝트가 시작될 때 한 번만 나타납니다. 이 에이전트의 역할은 프로젝트의 런타임 환경을 설정하는 것입니다. 마치 아키텍트가 개발 서버의 후속 시작을 용이하게 하는 init.sh 스크립트를 작성하고, 진행 상황을 기록하는 claude-progress.txt 파일을 생성하고, 첫 번째 git 커밋을 생성하고, 가장 중요한 기능 목록을 생성하는 것과 같습니다. 이 기능 목록은 얼마나 자세합니까? claude.ai를 복제하는 경우, 사용자가 새 대화를 열고, 질문을 입력하고, Enter 키를 누르고, AI 응답을 확인하는 등 200개가 넘는 특정 기능이 나열되어 있습니다. 각 초기 상태는 실패로 표시되며, 에이전트는 각 상태를 개별적으로 확인해야만 성공으로 변경할 수 있습니다. 게다가, 한 가지 더 자세히 설명하자면, 이 목록은 마크다운이 아니라 JSON 배열로 작성되었습니다. Anthropic 실험 결과, 마크다운에 비해 JSON을 처리할 때 모델이 임의로 변경되거나 덮어씌워질 가능성이 낮다는 것이 확인되었기 때문입니다. 다른 하나는 코딩 에이전트입니다. 프로젝트가 초기화된 후에는 작업을 담당합니다. 핵심 행동 지침은 단 두 가지입니다. 한 번에 한 가지 기능만 수행하고, 완료 후에는 깨끗한 환경을 유지하세요. 깨끗한 환경이란 무엇일까요? 메인 브랜치에 코드를 커밋하는 기준을 생각해 보세요. 심각한 버그가 없고, 깔끔하고 문서화가 잘 된 코드여야 합니다. 그래야 다음 사람이 엉망진창인 코드를 먼저 정리하지 않고도 바로 새 기능 개발에 착수할 수 있습니다. 각 작업을 시작하기 전에 몇 가지 작업을 수행합니다. – `pwd`를 실행하여 현재 디렉토리를 확인합니다. – Git 로그와 진행률 파일을 읽어 이전 실행에서 수행된 작업을 파악합니다. – 기능 목록을 보고 완료되지 않은 기능 중 우선순위가 가장 높은 기능을 선택합니다. – 기본 테스트를 실행하여 앱을 계속 사용할 수 있는지 확인합니다. 그런 다음 한 가지 기능에 집중하고, 그 기능이 완료된 후에는: - Git 커밋 메시지 지우기 – claude-progress.txt 업데이트 – 기능 목록에 있는 상태 필드만 수정하고, 요구 사항 자체는 절대 삭제하거나 수정하지 마세요. 이 디자인의 독창성은 "메모리"를 파일과 Git 히스토리로 외부화하는 데 있습니다. 에이전트의 각 라운드는 컨텍스트 창의 단편화된 정보에 의존하지 않습니다. 대신, 신뢰할 수 있는 인간 엔지니어의 일상적인 작업을 모방합니다. 먼저 진행 상황을 동기화하고, 환경이 제대로 작동하는지 확인한 다음, 작업을 시작합니다. 테스트 과정의 개선 사항은 별도로 논의할 가치가 있습니다. 에이전트는 단위 테스트 실행이나 API 호출과 같은 코드 수준 검증만 사용했습니다. 문제는 많은 버그가 사용자가 페이지와 실제로 상호 작용할 때만 발생한다는 것입니다. 해결책은 에이전트에 Puppeteer MCP와 같은 브라우저 자동화 도구를 장착하는 것입니다. 이제 에이전트는 실제 사람처럼 브라우저를 열고, 버튼을 클릭하고, 양식을 작성하고, 페이지 렌더링 결과를 볼 수 있습니다. Anthropic은 에이전트가 claude.ai 복제본을 테스트하는 동안 찍은 스크린샷을 보여주는 애니메이션 GIF를 게시하여 에이전트가 실제로 사용자처럼 작동함을 보여주었습니다. 이 기술은 기능 검증의 정확도를 크게 향상시킵니다. 물론 한계도 있습니다. 예를 들어, Puppeteer는 네이티브 브라우저 알림 팝업을 캡처할 수 없으며, 팝업에 의존하는 기능은 버그가 발생하기 쉽습니다. 이 계획은 아직 몇 가지 의문점을 남깁니다. 예를 들어, 모든 것을 처리하는 범용 에이전트를 두는 것이 더 나을까요, 아니면 전문화된 역할을 맡는 것이 더 나을까요? 테스트 전용 테스트 에이전트와 정리 전용 코드 정리 에이전트를 두는 것이 더 효과적일 수도 있습니다. 예를 들어, 이러한 경험은 풀스택 웹 개발에 최적화되어 있습니다. 과학 연구나 재무 모델링과 같은 장기 사이클 작업에도 적용할 수 있을까요? 물론 가능하겠지만, 실험을 통해 검증해야 합니다. Xiangma@xicilion이 말했습니다: AI의 마지막에는 소프트웨어 엔지니어링이 남습니다. AI 에이전트는 마법이 아닙니다. 또한 인간의 소프트웨어 엔지니어링 경험으로부터 배우고, 복잡한 작업을 간단한 작업으로 분해하며, 체계적인 작업 환경과 명확한 인수인계 메커니즘을 갖춰야 합니다. 인간 엔지니어가 여러 팀과 시간대를 넘나들며 협업할 수 있는 이유는 무엇일까요? 바로 Git, 문서화, 코드 검토, 그리고 테스트 도구가 있기 때문입니다. AI 에이전트가 장시간 자율적으로 작업하려면 이러한 도구들을 가져와야 합니다. Anthropic의 접근 방식은 소프트웨어 엔지니어링의 모범 사례를 에이전트가 이해할 수 있는 단서와 툴체인으로 변환할 뿐입니다. 모델을 더 똑똑하게 만드는 것이 아니라, 더 나은 스캐폴딩을 제공합니다. Anthropic의 접근 방식은 배울 만한 가치가 있습니다. Claude, GPT 또는 다른 모델을 사용하든, 여러 라운드로 구성된 장기 작업을 설계할 때는 에이전트를 다음 라운드로 신속하게 전환하는 방법과, 기존 작업을 다시 만들거나 코드의 혼란을 방지하는 방법을 명확하게 이해해야 합니다. 단일 라운드 작업의 경우에도 에이전트는 메모리가 없다는 점을 이해해야 합니다. 따라서 외부 파일을 사용하여 이전에 수행한 작업을 "기억"할 수 있도록 해야 합니다. 모델의 현재 기능만으로도 Coding Agent는 이미 많은 작업을 수행할 수 있습니다. 핵심은 소프트웨어 엔지니어링과 유사한 방식으로 작업을 세분화하고 워크플로를 설계할 수 있는지 여부입니다. 원문: 장기 에이전트를 위한 효과적인 하네스 https://t.co/tERUGrV9wC 번역하다:
이 기사에 언급된 작업 목록은 일종의 글로벌 컨텍스트이지만, 모든 글로벌 컨텍스트와 마찬가지로 너무 길면 안 x.com/stevenlu1729/s…창이 충분하지 않기 때문입니다.
