X (Twitter)

[인류학 프로젝트 블로그 해석] 고급 도구 사용 기능: 도구 검색 도구, 프로그래밍 방식 도구 호출, 도구 사용 예제라는 세 가지 기술을 결합하면 토큰 소모가 크게 줄어들고, 도구 선택이 더 명확해지고, 복잡한 호출이 더 정확해집니다. Anthropic은 최근 Claude 개발자 플랫폼에서 고급 도구 사용을 출시하여 AI 에이전트가 컨텍스트 창에 구애받지 않고 수백 개 또는 수천 개의 도구를 효율적으로 처리할 수 있도록 했습니다. 에이전트가 IDE, Git, Slack, GitHub, Jira 또는 데이터베이스를 동시에 운영해야 한다고 상상해 보세요. 기존에는 도구 정의에 막대한 양의 토큰이 소모되어 컨텍스트 팽창, 잘못된 도구 선택 또는 호출 지연이 발생했습니다. 이러한 새로운 기능은 동적 로딩, 코드 오케스트레이션 및 예제 가이드를 통해 에이전트의 사용성과 확장성을 크게 향상시킵니다. https://t.co/RiM4CuLtgp 핵심 과제 및 대처 전략: 신뢰할 수 있는 도구 사용 시스템을 구축하는 데는 세 가지 주요 문제점이 있습니다. 첫째, 토큰 소모량이 너무 높습니다. 예를 들어, 여러 서비스(예: GitHub 및 Slack)에서 도구 정의를 가져오면 즉시 50,000개 이상의 토큰이 소모될 수 있습니다. 둘째, 도구 선택이 부정확합니다. 이름이 비슷한 도구(예: notification-send-user 및 notification-send-channel)는 혼동되기 쉽습니다. 셋째, 호출 패턴이 모호합니다. JSON 패턴은 매개변수를 표준화하지만 날짜나 중첩된 객체와 같은 복잡한 형식을 직관적으로 표시할 수 없습니다. Anthropic의 전략은 "지연과 지능"입니다. 모든 도구를 한꺼번에 로드하는 대신, 필요에 따라 도구를 검색하고 호출합니다. 자연어 대신 코드를 사용하여 다단계 작업을 조정하여 추론 라운드를 줄이며, 사례를 통해 사용법을 명확하게 설명합니다. 이러한 방법은 도구 사용을 정적 설명에서 동적 실행으로 전환하여 에이전트가 리소스가 제한된 환경에서 복잡한 워크플로를 구현할 수 있도록 지원합니다. 3가지 핵심 기술 1. 도구 검색 도구 이는 에이전트가 모든 정의를 미리 로드하는 대신 런타임에 관련 도구를 검색하고 로드할 수 있도록 하는 "메타 도구"입니다. 도구 플래그 `defer_loading: true`가 설정되면 검색된 도구와 몇 가지 핵심 도구만 초기 컨텍스트에 포함됩니다. 에이전트는 이름이나 설명을 사용하여 도구를 동적으로 가져올 수 있습니다. 예를 들어 GitHub 작업을 쿼리할 때는 `github.createPullRequest`만 로드됩니다. 장점: 토큰을 최대 85% 절약(77,000개에서 8,700개로)하고 정확도를 크게 향상(예: Claude Opus 4를 49%에서 74%로 향상). 간단한 구현: 도구 배열에 검색 구성을 추가하여 MCP의 일괄 지연 로딩을 지원합니다. 이를 통해 에이전트는 "스마트 인덱스"처럼 대규모 도구 라이브러리를 효율적으로 탐색할 수 있습니다. 2. 프로그래밍 도구 호출 에이전트는 자연어로 도구를 하나씩 호출하는 대신, 샌드박스 환경에서 여러 도구의 조정을 수행하는 Python 코드를 생성합니다. 도구는 allowed_callers: ["code_execution_20250825"]로 표시되어야 하며, Claude는 루프, 조건문, 병렬 실행(예: asyncio.gather)을 포함하는 코드 조각을 출력합니다. 예: 예산 초과를 확인할 때 코드는 팀원, 예산 및 지출 데이터를 병렬로 검색하고 최종 결과(예: 초과 목록)만 에이전트에게 반환하여 중간 데이터가 컨텍스트를 오염시키는 것을 방지합니다. 장점: 토큰 수가 37% 감소(43,588개에서 27,297개로), 지연 시간이 단축(여러 차례의 추론 필요 없음), 지식 검색 작업의 정확도가 25.6%에서 28.5%로 향상되었습니다. 이는 특히 Claude for Excel에서 일괄 데이터 분석과 같이 대용량 테이블이나 API 링크를 처리하는 데 적합합니다. 3. 도구 사용 예 실제 호출 패턴을 보여주는 입력 예제를 제공하여 JSON 패턴을 보완합니다. 예를 들어, create_ticket 도구에서 날짜 형식(YYYY-MM-DD), 중첩된 객체(예: reporter), 그리고 선택적 매개변수(긴급 업그레이드용)를 나열합니다. 각 도구에는 2~3개의 변형 예제가 포함될 수 있습니다. 장점: 복잡한 매개변수의 정확도가 72%에서 90%로 향상되며, 특히 ID 형식이나 매개변수 연결의 정확도가 높습니다. 이는 에이전트에게 "사용 설명서"를 제공하여 암묵적인 규칙을 빠르게 파악할 수 있도록 하는 것과 같습니다. 실험 결과 및 전망: 내부 벤치마크 테스트 결과 MCP 및 GIA 벤치마크 모두에서 이러한 기능의 개선이 나타났습니다. 컨텍스트 유지율은 85%에 도달하고 전체 정확도는 평균 10~20% 향상되었습니다. 예를 들어, 대규모 툴셋을 처리할 때 Claude Opus 4.5의 성능은 79.5%에서 88.1%로 향상되었습니다. 실제 적용 환경에서는 이미 에이전트가 Excel이나 Jira와 같은 시나리오와 원활하게 통합될 수 있도록 지원했습니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용