X (Twitter)

Google이 11월에 발표한 최신 백서 "에이전트 소개"는 "Google x Kaggle 5일 AI 에이전트 집중 과정"의 첫 번째 장으로, 개념 증명부터 프로덕션에 바로 투입할 수 있는 에이전트 시스템까지 안내 프레임워크를 제공합니다. 구글의 최신 백서는 AI 에이전트의 핵심 아키텍처, 분류, 구축 방식, 프로덕션 배포, 보안 거버넌스, 그리고 진화적 학습에 중점을 두고 있습니다. 생성적 AI가 수동적 예측에서 자율적 문제 해결로 전환되는 과정을 객관적으로 분석하고, 에이전트가 소프트웨어 언어 모델의 자연스러운 확장이며 반복적 추론, 행동, 그리고 관찰을 통해 목표를 달성할 수 있음을 강조합니다. 백서의 핵심 주장은 지능형 에이전트를 구축하는 것은 단순히 언어 모델을 통합하는 것이 아니라 유연성과 안정성 간의 균형을 필요로 하는 완전한 애플리케이션 시스템을 설계하는 것이라는 것입니다. 1. 예측 AI에서 자율 지능형 에이전트로 AI는 수동적인 작업(예: 번역이나 이미지 생성)에서 자율 에이전트, 즉 각 단계에서 인간의 지시에 의존하지 않고 여러 단계의 작업을 독립적으로 계획하고 실행할 수 있는 시스템으로 전환하고 있습니다. 이러한 에이전트는 언어 모델의 추론 능력과 실용적인 실행 도구를 결합하여 "언어 모델의 자연스러운 진화이며 소프트웨어에서 실용적으로 활용되는" 형태가 되었습니다. 백서는 프로토타입에서 생산 단계까지의 과제가 보안, 품질, 그리고 신뢰성을 보장하는 데 있다고 강조합니다. 2. 지능형 에이전트 소개 지능형 에이전트는 모델, 도구, 오케스트레이션 계층 및 런타임 서비스의 조합으로 정의되며, 언어 모델을 사용하는 반복적인 프로세스를 통해 목표를 달성합니다. 핵심 구성 요소는 다음과 같습니다. • 모델(두뇌): 일반 모델, 미세 조정 모델 또는 다중 모드 모델과 같은 핵심 추론 엔진은 정보 처리, 옵션 평가 및 의사 결정을 담당합니다. • 도구(손): API, 코드 기능, 데이터 저장소를 포함하여 외부 세계와 연결하기 위한 메커니즘으로, 실시간 정보를 얻거나 작업을 수행하는 데 사용됩니다. • 오케스트레이션 계층(신경계): 운영 주기를 관리하고 계획, 메모리, 추론 전략(예: 체인 사고 또는 ReAct)을 처리합니다. • 배포(본문 및 다리): 로컬 프로토타입부터 안전하고 확장 가능한 서버 호스팅까지 UI 또는 API를 통한 액세스를 보장합니다. 지능형 에이전트를 개발하는 것은 감독의 역할과 유사합니다. 즉, 지침과 프롬프트를 설정하고, 도구를 선택하고, 맥락을 제공하는 것입니다. 백서는 언어 모델의 유연성이 양날의 검이며, 신뢰할 수 있는 결과를 도출하기 위해서는 "맥락 엔지니어링"이 필요하다고 지적합니다. 지능형 에이전트는 본질적으로 맥락의 창을 관리하는 큐레이터로서, 새로운 상황에 적응하여 문제를 해결할 수 있습니다. 3. 지능형 에이전트의 문제 해결 프로세스: 지능형 에이전트는 5단계로 구성된 연속 루프를 통해 목표를 달성합니다. 1. 작업 받기: 사용자나 트리거로부터 높은 수준의 목표를 받습니다. 2. 현장 스캔: 환경을 인식하고 맥락(사용자 요청, 기억, 도구 등)을 수집합니다. 3. 반성: 모델을 사용하여 작업을 분석하고 계획을 개발합니다. 4. 실행: 계획을 실행하는 첫 단계로, 도구를 사용하는 것과 같습니다. 5. 관찰 및 반복: 결과를 평가하고, 컨텍스트를 업데이트하고, 반복합니다. 예: 고객 지원 담당자가 "제 주문 번호 12345는 어디에 있나요?"라는 질문을 처리할 때, 먼저 여러 단계(주문 검색, 추적 정보 조회, 답변 종합)를 계획하고 이를 하나씩 실행합니다. 이러한 "생각-행동-관찰" 순환을 통해 담당자는 복잡한 업무를 처리할 수 있습니다. 4. 지능형 에이전트 시스템 분류에 대한 백서에서는 지능형 에이전트를 5가지 레벨로 구분하고 있으며, 각 레벨은 이전 레벨의 확장입니다. • 레벨 0: 핵심 추론 시스템: 고립된 언어 모델로, 사전 훈련된 지식에만 의존하며 실시간 상호 작용이 불가능합니다. • 레벨 1: 문제 해결자 연결: 외부 데이터에 액세스할 수 있는 도구(예: 검색 API)를 추가합니다. 레벨 2: 전략적 문제 해결사: 복잡한 계획 및 컨텍스트 엔지니어링을 지원하고 정보를 사전에 관리할 수 있습니다. 3단계: 협력적 다중 에이전트 시스템: 에이전트가 다른 에이전트를 도구로 취급하여 노동 분담을 달성하는 인간 팀과 같은 시스템입니다. 레벨 4: 자체 진화 시스템: 역량 격차를 파악하고 새로운 도구나 지능형 에이전트를 동적으로 생성합니다. 5. 핵심 에이전트 아키텍처: 모델, 도구 및 오케스트레이션 • 모델 선택: 일반적인 벤치마크보다 작업별 추론 및 도구 사용 기능을 우선시합니다. 비용과 속도를 최적화하기 위해 다중 모델 라우팅(예: 대규모 모델 계획, 소규모 모델 실행)을 권장합니다. 다중 모드 모델은 이미지/오디오를 처리하거나, 특수 도구를 사용하여 데이터를 변환합니다. 도구: 정보 검색(예: RAG, NL2SQL)과 액션 실행(예: API 호출, 코드 샌드박스)으로 구분됩니다. 함수 호출은 OpenAPI 또는 MCP를 통해 연결되어 안정적인 상호작용을 보장합니다. 사용자 상호작용 도구(예: HITL 확인)도 포함됩니다. • 오케스트레이션 계층: 사이클을 관리하고 언제 생각하고 행동할지 결정합니다. 핵심 선택 사항으로는 자율성 수준(결정성 vs. 동적), 구현 방식(노코드 vs. ADK와 같은 코드 우선), 그리고 프레임워크(개방형, 관찰 가능) 등이 있습니다. 6. 핵심 설계 선택, 다중 에이전트 시스템 및 설계 패턴 • 지침 및 컨텍스트: 시스템 프롬프트를 사용하여 도메인 지식 및 역할(예: "친절한 지원 담당자")을 주입합니다. 향상된 컨텍스트에는 단기 기억(현재 세션) 및 장기 기억(RAG 쿼리 기록)이 포함됩니다. • 다중 에이전트: 단일 슈퍼 에이전트를 피하기 위해 "전문가 팀" 모델을 사용합니다. 일반적인 모델로는 코디네이터(하위 작업 라우팅), 시퀀스(파이프라인), 반복적 개선(생성-비판 루프), HITL(인간 승인) 등이 있습니다. • 배포 및 서비스: 온프레미스에서 클라우드 호스팅(예: Vertex AI Agent Engine 또는 Cloud Run)까지. 세션 기록, 보안 로그 및 규정 준수를 처리해야 합니다. 7. 에이전트 운영: 불확실성에 대한 체계적인 처리 Agent Ops는 DevOps와 MLOps의 진화된 형태로, 에이전트의 무작위성을 해결합니다. 주요 실행 방식은 다음과 같습니다. • 목표 완료율, 사용자 만족도, 지연, 비즈니스 영향 등의 주요 지표를 측정합니다. • 품질 평가: 골든 데이터 세트를 기반으로 언어 모델을 평가자로 사용하여 출력의 점수를 매깁니다. • 지표 기반 개발: 변경 사항의 자동 테스트, A/B 배포 검증. • 디버깅: OpenTelemetry는 실행 경로를 추적하고 기록합니다. • 인간 피드백: 보고서를 새로운 테스트 사례로 변환하고 루프를 닫습니다. 8. 에이전트 상호 운용성 • 에이전트와 인간: 채팅 UI, 컴퓨터 기반 도구(제어 인터페이스), 동적 UI 생성 또는 실시간 멀티모달 상호 작용(예: Gemini Live API)을 통해 상호 작용합니다. • 에이전트 간: 발견 및 통신(비동기 작업)을 위한 A2A 프로토콜 표준화. • 에이전트 및 자금: AP2 및 x402 프로토콜은 거래를 처리하여 승인 및 소액 결제를 보장합니다. 9. 보안 및 확장 • 단일 에이전트 보안: 하이브리드 보호(결정적 가드레일 + AI 가드)를 통해 유용성과 위험 간의 균형을 유지합니다. SPIFFE 검증을 사용하여 에이전트 신원을 새로운 주체로 설정합니다. ADK 예시: 콜백, 플러그인 및 모델 아머(Model Armor) 탐지 주입. • 엔터프라이즈 규모로 확장: 제어 영역(게이트웨이 + 레지스트리)을 통해 정책을 적용하여 "에이전트 확산" 문제를 해결합니다. 보안(주입 팁, 데이터 침해) 및 인프라(안정성 및 비용, 프로비저닝된 처리량 등)에 중점을 둡니다. 10. 상담원의 진화 및 학습 방식: 상담원은 변화에 적응하고 "노화"를 방지해야 합니다. 학습 소스: 운영 경험(로그, HITL 피드백) 및 외부 신호(정책 업데이트). 최적화에는 컨텍스트 엔지니어링 및 도구 개발이 포함됩니다. 예: 다중 상담원 워크플로 학습 준수 지침. Agent Gym은 합성 데이터와 전문가 컨설팅을 활용하여 최적화된 오프라인 시뮬레이션 플랫폼으로, 그 선두에 있습니다. 11. 고급 에이전트의 예: Google Co-Scientist: 가설을 생성하고 평가하는 가상 연구 파트너. 에이전트를 감독하고 아이디어 개선을 위한 루프를 실행하여 전문가 팀을 관리합니다. AlphaEvolve: 제미니 코드 생성과 진화적 평가를 결합한 발견 알고리즘입니다. 인간의 안내를 통해 문제를 정의하여 투명성과 실용성을 보장합니다. 12. 결론: 지능형 에이전트는 AI를 도구에서 파트너로 전환하여 모델, 도구 및 오케스트레이션의 통합을 통해 자율성을 확보합니다. 개발자는 "벽돌공"에서 "감독"으로 전환하여 평가와 거버넌스를 강조해야 합니다. 이 프레임워크는 신뢰할 수 있는 시스템 구축을 안내하여 지능형 에이전트가 팀 구성원으로 성장할 수 있도록 지원합니다. Google x Kaggle 5일 AI 에이전트 집중 과정: https://t.co/0REUoVY2EN Google의 11월 최신 백서 "에이전트 소개":

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용