X (Twitter)

Gemini 3를 사용하여 처음부터 지능형 에이전트를 구축하는 실용 가이드 필 슈미트가 새롭게 출시한 이 실용적인 튜토리얼은 AI 에이전트 구축 과정을 이해하기 쉽게 설명합니다. 슈미트는 에이전트가 본질적으로 매우 간단하다고 강조합니다. 루프 내에 LLM과 몇 가지 도구만 배치하면 되기 때문에 모델이 해당 도구를 언제 사용할지, 어떻게 작업을 계획할지 스스로 결정할 수 있습니다. 전체 튜토리얼은 Gemini 3 Pro를 기반으로 하며, 기본 텍스트 생성부터 파일을 읽고 쓰고 지속적인 대화가 가능한 완전한 CLI 에이전트까지 단계별로 진행합니다. 100줄도 채 되지 않는 코드로 빠르게 시작하고 싶은 사람들에게 적합합니다. 지능형 에이전트의 핵심 구성 요소(슈미트의 "살아있는 유기체"에 대한 은유) • 뇌(모델): Gemini 3 Pro는 사고, 계획, 도구 사용 여부 결정을 담당합니다. • 도구: 파일 읽기, 디렉토리 나열, 파일 쓰기 등의 외부 기능 • 작업 공간/컨텍스트: 대화 기록 + 도구 실행 결과, 이를 "컨텍스트 엔지니어링"이라고 합니다. • 라이프 사이클(루프): 관찰 → 생각 → 행동 → 관찰... 작업이 완료되거나 종료 조건이 충족될 때까지 반복됩니다. 전체 프로세스는 고전적인 ReAct 패턴(추론 + 행동)을 따르지만 Gemini의 기본 함수 호출을 사용하여 구현되며 LangGraph 및 CrewAI와 같은 복잡한 프레임워크에 의존하지 않습니다. 단계별 건설 과정 1. 가장 기본: 일반 텍스트 생성(아직 지능형 에이전트는 아님) 먼저 Agent 클래스를 만들고 gemi-3-pro-preview 모델을 사용하여 텍스트를 직접 생성합니다. 이는 본질적으로 향상된 챗봇입니다. 2. 두 번째 단계: 도구 추가(함수 호출) • JSON 스키마를 사용하여 도구(이름, 설명, 매개변수)를 정의합니다. 해당 Python 함수(예: read_file, write_file, list_dir)를 구현합니다. • 모델에 도구 정의를 전달하면 모델은 필요한 경우 구조화된 도구 호출 요청을 반환합니다. 3. 세 번째 단계: 루프 닫기(진정한 지능형 에이전트 되기) • 코드에서 모델이 도구를 호출해야 하는지 확인합니다 → 도구를 실행합니다 → 결과를 functionResponse 형태로 모델에 반환합니다 → 모델은 계속해서 생각합니다. • 핵심 팁: 쌍둥이자리 3에는 특별한 "생각의 특징"이 있는데, 그대로 보존해야 합니다. 그렇지 않으면 추론 연쇄 능력이 상실됩니다. • 리누스 토발즈처럼 말하게 하는 등 시스템 부팅 명령을 추가하여 개성을 강화합니다. 4. 네 번째 단계: 여러 라운드의 CLI 상호작용은 while True 루프로 래핑되어 사용자가 지속적으로 명령을 입력할 수 있고, 에이전트는 여러 단계의 작업(예: 먼저 디렉토리 나열 → 파일 읽기 → 콘텐츠 수정)을 처리할 수 있습니다. 최종 결과: 터미널의 에이전트에게 "data.txt의 내용을 "Hello World"로 변경하세요"라고 말하면 에이전트가 자동으로 `read_file` → think → write_file을 호출하여 프로세스를 단계별로 완료합니다. 최고의 엔지니어링 관행(기사의 가장 집중된 섹션) 1. 도구 디자인 • 도구의 이름과 설명은 모델이 도구의 기능과 사용 시기를 한눈에 이해할 수 있을 만큼 매우 명확하고 모호하지 않아야 합니다. • 각 도구의 매개변수는 모델을 혼란스럽게 하거나 잘못된 호출을 생성할 수 있는 과도한 매개변수를 피하기 위해 실제로 필요한 필드만 유지하여 최대한 간결하게 유지해야 합니다. 도구의 출력은 사용자 친화적이어야 합니다. 즉, 명확한 성공/실패 상태, 자세한 오류 메시지, 필요한 맥락, 그리고 다음 단계에 대한 사전 예방적 제안까지 포함해야 합니다. 이를 통해 모델은 다음 추론 단계에서 고품질 입력을 받을 수 있습니다. 2. 컨텍스트 관리 • 대량의 파일 내용이나 데이터를 컨텍스트에 한꺼번에 쑤셔 넣지 마세요(창이 넘치거나 모델이 초점을 잃을 수 있음). read_file 및 search_database와 같은 "주문형 로딩" 도구를 설계하는 것을 우선시하여 모델이 언제 어떤 특정 정보를 가져올지 스스로 결정할 수 있도록 합니다. • 대화가 길어지고 맥락이 폭발적으로 늘어나는 경우 요약으로 기록을 압축하거나 외부 메모리 시스템(벡터 데이터베이스, 키-값 저장소 등)을 도입합니다. 3. 과도한 엔지니어링을 피하세요 • 가장 비용 효율적인 방법은 먼저 "단일 강력한 모델 + 간단한 while 루프 + 네이티브 함수 호출"을 사용하여 프로토타입을 실행하는 것입니다. • LangGraph, CrewAI, Autogen과 같은 고중량 프레임워크는 복잡한 상태 머신, 다중 에이전트 협업, 롤백 메커니즘이 실제로 필요한 작업에만 도입하세요. 대부분의 실제 시나리오에서는 간단한 루프만으로도 충분합니다. 4. 안전성 및 견고성 • 모델이 무한 루프에 빠지지 않도록 하려면 최대 반복 횟수(max_iterations)를 설정해야 합니다. • 파일 삭제, 이메일 전송, 자금 이체 등 파괴적인 작업이 포함된 모든 도구에는 수동 확인 단계나 엄격한 허용 목록 메커니즘이 포함되어야 합니다. • 강력한 시스템 지침을 통해 가드레일을 구축하고 모델에 절대 허용되지 않는 사항을 명확하게 알려줍니다. 5. 디버깅 및 관찰성 • 개발 단계에서는 모든 도구 호출 요청, 도구 실행 결과, 모델의 사고 과정을 인쇄합니다. 이렇게 매우 높은 수준의 투명성을 통해 문제가 도구 정의, 반환 형식 또는 모델의 추론 논리에 있는지 즉시 파악할 수 있으므로 디버깅을 가장 빠르게 수행하고 안정적인 지능형 에이전트를 구축할 수 있습니다. 이러한 권장 사항은 매우 간결하며 거의 모든 LLM 기반 에이전트 프로젝트에 적용할 수 있습니다(Gemini, Claude, GPT 또는 오픈소스 모델 사용 여부와 관계없이). 새 에이전트를 빌드할 때마다 이 권장 사항을 체크리스트처럼 활용하고 항목별로 참조하는 것이 좋습니다. 이 기사의 핵심 결론은 실용적인 지능형 에이전트를 만드는 것이 **상상했던 것보다 훨씬 덜 복잡하다**는 것이며, 핵심은 "모델 + 도구 + 루프 + 우수한 컨텍스트 관리"라는 것입니다. • 도구가 잘 설계되고 컨텍스트가 적절하게 제어되는 한, 기본적으로 여러 도구 호출을 지원하는 Gemini 3 Pro는 단일 도구로 대부분의 작업을 처리할 수 있습니다. 슈미트는 모든 사람이 가장 간단한 프로토타입을 실행하여 시작한 다음 메모리, 플래너, 다중 에이전트 협업과 같은 고급 기능을 점진적으로 추가하도록 권장합니다. 블로그 주소

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용