AI 에이전트의 보안은 모든 사람의 관심사입니다. 예를 들어, ChatGPT Atlas와 같은 브라우저 에이전트가 제 신용카드 정보를 연동하고 항공권을 예약하도록 허용하거나, 제 대신 이메일을 보내도록 허용할 용기는 없습니다. 이러한 AI 회사들이 자사 AI가 매우 안전하며 인젝션 공격을 차단할 수 있다고 주장하더라도 말입니다. 만약 실제로 그렇게 된다면 어떨까요? 실제로 그렇습니다. 지난달 "공격자의 후발 공격: 더 강력한 적응형 공격이 LLM 탈옥 및 즉시 주입 방어를 우회한다"(https://t.co/NMoDsBYV9k)라는 제목의 논문에서는 연구원들이 악성 명령을 탐지하고 필터링하기 위해 시중에서 가장 진보된 "즉각 주입 방어 시스템" 12개를 테스트했지만, 모두 침해당했습니다! 다시 말해, AI는 스스로를 방어할 수 없다는 뜻입니다! 영리하고 (사악한 😈) 인간이라면 언제나 AI를 피할 방법을 찾아낼 겁니다. AI는 방어가 불가능하기 때문에 다른 해결책을 찾아야 합니다. 메타는 최근 "에이전트 2의 법칙(Agents Rule of Two)"이라는 매우 실용적이고 거의 "상식적인" 보안 프레임워크를 제안했습니다. 이 원칙은 한 가지 전제를 전제합니다. 제안 삽입을 막을 수 없으므로 막으려 애쓰지 말아야 한다는 것입니다. 제안 삽입을 어떻게 감지할지에 집착할 것이 아니라, 설령 AI가 속더라도 최대의 피해를 입히지 않도록 시스템 설계에 집중해야 합니다. 진정으로 유용한 AI 비서는 기본적으로 세 가지 강력한 기능을 동시에 갖춰야 합니다. A. 신뢰할 수 없는 입력 처리 AI는 자신이 통제하거나 예측할 수 없는 외부 정보를 읽을 수 있습니다. 예를 들어, 다른 사람이 보낸 이메일, 온라인 기사, 사용자가 입력한 텍스트 등이 있습니다. B. 민감한 시스템 또는 개인 데이터에 대한 액세스 AI는 민감한 정보에 접근할 수 있습니다. 예를 들어, 개인 사진 앨범, 기밀 회사 문서, 비밀번호 데이터베이스, 심지어 프로덕션 환경의 서버까지 접근할 수 있습니다. C. 시스템 상태 또는 외부 통신 변경 AI는 "일을 처리할 수 있습니다." 예를 들어, 파일을 삭제하고, 이메일을 보내고, 주문을 하고, API를 호출할 수 있습니다. "2권 통치"의 핵심 아이디어는 다음과 같습니다. AI 에이전트는 한 번의 대화에서 세 가지 능력 [A], [B], [C]를 동시에 가질 수 없습니다. 세 가지 능력 중 최대 두 가지만 선택할 수 있습니다. 이는 안전과 관련된 타협과 같습니다. 안전의 세 가지 조합을 살펴보겠습니다. 1. 조합 1 (A + C): 위험도 낮음 시나리오: AI가 공개 웹페이지(A)를 읽은 후 요약을 작성하여 이메일로 보내도록 합니다(C). 왜 안전한가요? 제 개인 정보에 절대 손을 대지 않기 때문입니다(B). 웹페이지 콘텐츠가 악성(예: 주입 공격)이라 하더라도 기껏해야 스팸을 보낼 뿐, 제 비밀번호를 훔칠 수는 없습니다. 2. 조합 2 (A + B): 위험 감소 시나리오: AI가 내가 방금 받은 "신뢰할 수 없는" 이메일을 읽도록 허용(A)한 다음, 내 개인 주소록을 검색하여 이 사람이 누구인지 확인하도록 도움(B)을 줍니다. 왜 안전한가요? "아무것도 할 수 없기"(C) 때문입니다. "이메일 내용"과 "연락처 정보"를 볼 수는 있지만, 함께 묶어 해커에게 전송할 수는 없습니다. "읽기 전용" 도우미입니다. 3. 조합 3 (B + C): 위험 감소 시나리오: AI가 내 개인 일정에 접근하도록 허용(B)한 다음, 동료들에게 이메일을 보내 회의 시간을 조정하도록 돕습니다(C). 왜 안전한가요? "신뢰할 수 없는" 외부 입력(A)을 처리하지 않기 때문입니다. 조작되는 모든 데이터 소스와 객체는 내부적으로 신뢰됩니다. 그렇다면 가장 위험한 때는 언제일까요? A + B + C가 동시에 나타나면 이는 "위험" 구역입니다. 시나리오: AI가 낯선 사람이 보낸 악성 주입 공격이 담긴 이메일을 읽습니다(A). 그런 다음 AI가 해커의 개인 파일에 접근하도록 "설득"됩니다(B). 마지막으로 네트워크 요청을 통해 이러한 파일의 내용을 해커에게 전송합니다(C). 제 작업에 A, B, C를 동시에 사용해야 한다면 어떻게 해야 할까요? 예를 들어, AI가 "첨부 파일이 포함된 이메일(A)을 읽고, 제 (B) 프라이빗 클라우드 드라이브에서 관련 프로젝트 정보를 찾은 다음, (C) 이 모든 정보를 고객에게 전송"하도록 하고 싶습니다. "2제곱 규칙"에 따르면 답은 '예'입니다. 하지만 AI는 이를 "자율적으로" 완료할 수 없습니다. 정지해야 하고, 팝업 창이 나타나면 "사람"이 최종 확인(Human-in-the-Loop)을 합니다. "승인" 버튼을 누르기 전에 AI가 무슨 일을 할지 직접 확인해야 합니다. 따라서 AI 에이전트를 개발한다면, 전능하고 무적의 "완벽한 비서"를 만드는 데 많은 노력을 들이지 마세요. 대신 "역량"과 "안전성" 사이에서 균형을 맞춰야 합니다. 이는 성숙하고 책임감 있는 엔지니어링 사고방식이기도 합니다. 즉, 기술의 한계를 인정하면서도 안전한 시스템을 설계해야 합니다. 따라서 다음에 AI 제품이 인터넷 전체를 돌아다니며 모든 개인 정보를 관리하고 모든 것을 자동으로 처리할 수 있다고 주장하는 것을 본다면, 한 가지 질문을 더 해봐야 할 것입니다. 어떻게 "세 가지 중 두 가지를 선택"할 수 있었을까요? "세 가지 권리를 모두 가지고 있다"고 주장하는데, 언젠가 스팸 메일에 "당하지 않을" 거라고 어떻게 보장할 수 있을까요? 이 "2권 통치"는 결코 최종 목표가 아닙니다. 이는 단지 현재 (2025년까지) 우리가 제공할 수 있는 가장 신뢰할 수 있는 보안 솔루션일 뿐입니다. 앞으로 더 나은 해결책을 찾을 수도 있겠지만, 그때까지는 탄탄한 보안 계획을 수립하는 것이 항상 좋은 생각입니다. 메타 기사: https://t.co/9PBZf5PFy3 Simon Willison의 새로운 즉석 주입 논문: Agents Rule of Two와 The Attacker Moves Second:
메타의 논문

