meng shao (@shao__meng): 从第一性原理的深度剖析「Claude Agent Skills」 @HanchungLee 这篇对 Claude Agent Skills…

첫 번째 원칙부터 "Claude Agent Skills"에 대한 심층 분석 @HanchungLee의 Claude Agent Skills에 대한 설명과 분석은 매우 포괄적이며 기본 원리를 면밀히 따르고 있습니다. 꼭 저장해서 읽어보시길 권장합니다. 저자는 기본 원리부터 시작하여 시스템의 설계 철학, 파일 구조, 검색 메커니즘, 호출 프로세스, 그리고 기존 도구와의 근본적인 차이점을 면밀히 분석합니다. 1. 스킬 시스템은 정확히 무슨 역할을 하나요? 간단히 말해서, 클로드의 "스킬"은 전통적인 함수 호출이나 코드 실행 도구가 아니라, 순수한 프롬프트 기반 메타 도구 시스템입니다. 신중하게 설계된 시스템 수준 명령을 현재 대화에 동적으로 주입함으로써 클로드의 동작, 사용 가능한 도구 세트, 심지어 기본 모델까지 일시적으로 변경하여 동일한 클로드 인스턴스가 도메인 전문가로 "변환"되거나 특정 복잡한 워크플로를 실행할 수 있도록 합니다. 핵심 아이디어는 한 문장으로 요약할 수 있습니다. 기술 = "요청에 따라 주입할 수 있는 전문 지식 + 사전 승인된 도구 권한 + 명확한 작업 실행 지침"입니다. II. 기술과 기존 도구의 근본적인 차이점 기존 도구(예: Bash, Read, Write, Computer Use)는 동기적으로 실행되는 원자적 연산입니다. 모델이 호출을 발행하면 → 외부 시스템이 즉시 결과를 반환하고 → 모델은 계속해서 생각합니다. 기술은 완전히 다릅니다. 코드나 외부 명령을 직접 실행하지 않습니다. "컨텍스트를 다시 작성하는" 기능을 합니다. 호출되면 우선순위가 가장 높은 새로운 명령을 대화에 삽입합니다. 본질적으로 비동기 "힌트 확장기"입니다. 통화 후, 클로드의 모든 후속 사고와 도구 사용은 이 새로운 주입 규칙을 준수해야 합니다. 이것이 바로 여러 단계의 추론, 상태 관리, 도메인 지식이 필요한 워크플로를 처리하는 데 기술이 자연스럽게 적합한 반면, 기존 도구는 "데이터 가져오기" 및 "파일 쓰기"와 같은 단일 작업에 더 적합한 이유입니다. 3. 기술은 어떤 모습인가요? 완전한 스킬은 하나의 폴더로 구성되며, 핵심 파일은 https://t.co/JW8wM9KmBn 뿐입니다. 일반적인 구조는 다음과 같습니다. 내-pdf-전문가/ ├── SKILL.md ← 가장 중요한 파일 ├── scripts/ ← 선택 사항, 보조 Python/js 스크립트 포함 ├── references/ ← 선택 사항, 모델이 읽을 수 있는 설명서 포함 └── assets/ ← 선택 사항, 템플릿, 바이너리 등 포함, 경로만 제공됨 SKILL.md는 두 부분으로 나뉩니다. 1. 시작 부분의 YAML 메타데이터(---로 래핑됨) --- 이름: pdf 설명: 귀하는 PDF 콘텐츠를 추출, 변환, 분석할 수 있는 전문적인 PDF 처리 전문가입니다. allowed-tools: "Bash, 읽기, 쓰기" 모델: 클로드-오푸스-4-20250514 버전: 1.2.0 --- 주요 분야에 대한 설명: • 이름: 스킬이 호출되는 명령 이름(사용자는 "pdf 스킬을 사용하여 이 파일을 처리하세요"라고 말합니다). • 설명: 가장 중요합니다! Claude는 모든 스킬에 대한 설명을 읽고 어떤 스킬을 언제 호출할지 결정하므로 간결하고 실행 지향적이어야 합니다. • 허용 도구: 사전 승인된 도구 목록으로, 와일드카드(예: Bash(pdftotext:*))를 지원하며 최소 권한 원칙을 구현합니다. • 모델: 더 강력한 모델(예: Opus 4) 사용을 강제할 수 있도록 합니다. 2. YAML은 순수한 마크다운으로 작성된 자세한 지침으로, 일반적으로 작업 목표, 전제 조건, 세부 단계, 출력 형식 사양, 오류 처리 전략, 구체적인 예, 스크립트 및 에셋에서 리소스를 사용하는 방법 등이 포함됩니다. 권장되는 글쓰기 스타일: 필수 문장을 사용하고, 단계에 번호를 매기고, 인용 경로를 지정하세요(예: Read({baseDir}/scripts/extract_text.py)). 그리고 총 길이는 5,000단어 이내로 유지하세요. IV. 기술은 어떻게 발견되고 활용됩니까? 클로드는 "스킬"이라는 내부 메타 도구를 가지고 있는데, 이 도구는 현재 환경에서 사용 가능한 모든 스킬의 목록을 동적으로 생성하는 역할을 맡고 있습니다. 과정은 다음과 같습니다. 1. Claude는 시작 시 모든 스킬 폴더를 스캔하고 각 SKILL.md 파일의 YAML 헤더를 읽습니다. 2. 이러한 기술을 구조화된 XML 목록으로 패키징하여 시스템 프롬프트에 배치합니다. 3. 사용자가 요청을 하면 클로드는 자연어 이해에만 전적으로 의존하여 설명에서 가장 적합한 기술을 선택합니다. 4. Skill({"command": "pdf"})와 유사한 도구 호출을 실행합니다. 5. 권한을 확인한 후, 스킬 메타 도구는 해당 스킬의 전체 마크다운 콘텐츠를 사용자로서 대화 상자에 삽입합니다(하지만 isMeta: true로 표시). 6. 동시에 짧고 눈에 띄는 메시지(isMeta: false)를 삽입하여 사용자에게 "PDF 전문가 기술 활성화..."를 알립니다. V. 왜 이것을 "가장 안전한 복합 지능형 에이전트 아키텍처"라고 부르나요? 1. 코드 실행 권한 부족: 모든 논리는 궁극적으로 클로드 자신에 의해 추론되고 완성됩니다. 2. 도구 권한을 정밀하게 제어할 수 있습니다. pdftotext, grep 등 몇 가지 명령에 대해서만 스킬을 미리 승인할 수 있습니다. 3. 순전히 프롬프트 기반: 스킬을 잘못 작성하더라도 모델이 어색하게 동작할 뿐 안전 사고를 일으키지 않습니다. 4. 최신 업데이트 지원: 폴더에 새로운 기술을 추가하면 다음 대화에서 다시 시작할 필요 없이 바로 사용할 수 있습니다. VI. 실제 사례 연구: 스킬 생성 스킬 자체에 대한 이 글의 가장 흥미로운 부분은 스킬 생성 스킬을 사용하여 "스킬이 어떻게 스킬을 생성하는지"를 보여주는 것입니다. 5단계 마법사를 완벽하게 구현했습니다. 1. 요구사항 이해 → 2. 계획 수립 → 3. 폴더 및 SKILL.md 초기화 → 4. 사용자가 편집 및 수정 가능 → 5. 패키징 및 검증 전체 프로세스는 Claude 내에서 완료되며, 필요할 때만 스크립트에서 Python 템플릿을 호출하여 스킬 시스템의 놀라운 자체 부트스트래핑 기능을 보여줍니다. 요약: 기술 시스템에 대한 핵심 통찰력 1. 전문 지식은 모델을 통해 학습되는 것이 아니라, 우리에게 '주입'됩니다. 2. 복잡한 지능형 에이전트에는 반드시 ReAct + 함수 호출이 필요하지 않습니다. 순수한 힌트 + 컨텍스트 재작성도 마찬가지로 강력합니다. 3. 보안과 기능은 상호 배타적이지 않습니다. 사전 승인된 도구와 명확한 지침을 통해 클로드는 완전한 제어를 유지하면서 매우 복잡한 실제 작업을 처리할 수 있습니다. 블로그 주소:

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용