X (Twitter)

A segurança dos agentes de IA é uma preocupação para todos. Por exemplo, eu não ousaria autorizar um agente de navegador como o ChatGPT Atlas a vincular meu cartão de crédito e reservar passagens aéreas para mim, nem ousaria deixá-lo enviar e-mails em meu nome, mesmo que essas empresas de IA afirmem que sua IA é muito segura e pode prevenir ataques de injeção. E se isso acontecer? De fato, é esse o caso. No mês passado, um artigo intitulado "O atacante age em segundo lugar: ataques adaptativos mais fortes contornam as defesas contra jailbreaks do Llm e injeções de prompt" (https://t.co/NMoDsBYV9k) mostrou pesquisadores testando 12 dos "sistemas de defesa contra injeção de prompt" mais avançados do mercado, numa tentativa de detectar e filtrar comandos maliciosos, mas todos eles foram violados! Em outras palavras, a IA não consegue se defender! Humanos espertos (e malvados 😈) sempre encontrarão um jeito de contorná-la. Como não há como se defender contra a IA, precisamos encontrar outras soluções. A Meta propôs recentemente uma estrutura de segurança muito pragmática e quase de "senso comum", chamada "Regra dos Dois Agentes". Este princípio parte de uma premissa: como não podemos impedir a injeção de sugestões, não devemos tentar impedi-la. Não devemos nos preocupar excessivamente em como detectá-la, mas sim focar no design do sistema para que, mesmo se a IA for enganada, não cause o máximo de danos. Um assistente de IA verdadeiramente útil precisa possuir três capacidades poderosas simultaneamente: A. Tratamento de entradas não confiáveis A IA consegue ler informações externas que não pode controlar ou prever. Por exemplo, e-mails de qualquer pessoa, artigos online ou qualquer texto inserido por um usuário. B. Acesso a sistemas sensíveis ou dados privados A IA pode acessar suas informações confidenciais. Por exemplo, seu álbum de fotos particular, documentos confidenciais da empresa, seu banco de dados de senhas e até mesmo servidores em seu ambiente de produção. C. Alterar o estado do sistema ou a comunicação externa. A IA pode "fazer as coisas acontecerem". Por exemplo, ela pode excluir arquivos, enviar e-mails, fazer pedidos e acessar APIs. A ideia central da "regra dos dois poderes" é: Um agente de IA não pode possuir todas as três habilidades [A], [B] e [C] simultaneamente em uma única conversa. Você só pode escolher duas das três, no máximo. Isso é como uma compensação em termos de segurança. Vamos analisar três combinações de segurança: 1. Combinação 1 (A + C): Menor risco Cenário: Permitir que a IA leia uma página da web pública (A), escreva um resumo e o envie para mim por e-mail (C). Por que é seguro? Porque nunca toca nos meus dados privados (B). Mesmo que o conteúdo da página seja malicioso (como um ataque de injeção), no máximo enviará spam, mas não poderá roubar minha senha. 2. Combinação Dois (A + B): Menor Risco Cenário: Permitir que a IA leia um e-mail "não confiável" que acabei de receber (A) e, em seguida, me ajude a pesquisar em minha agenda de contatos privada (B) para ver quem é essa pessoa. Por que é seguro? Porque não pode "fazer nada" (C). Ele só pode visualizar, mas não pode combinar "conteúdo de e-mail" e "informações de contato" e enviá-los para hackers. É um assistente "somente leitura". 3. Combinação Três (B + C): Menor Risco Cenário: Permitir que a IA acesse meu calendário privado (B) e então me ajude a enviar e-mails para meus colegas (C) para coordenar horários de reuniões. Por que é seguro? Porque não lida com entradas externas "não confiáveis" (A). Todas as fontes de dados e objetos que estão sendo manipulados são internamente confiáveis para mim. Então, quando é mais perigoso? Quando A + B + C aparecem simultaneamente, essa é a zona "perigosa". Cenário: A IA lê um e-mail de um desconhecido contendo um ataque de injeção malicioso (A), então a IA é "persuadida" a acessar seus arquivos privados (B) e, finalmente, envia o conteúdo desses arquivos para o hacker por meio de uma solicitação de rede (C). E se minha tarefa exigir o uso de A, B e C simultaneamente? Por exemplo, quero que a IA "leia este e-mail (A) que acabei de receber com anexos, encontre as informações relevantes do projeto no meu (B) drive privado na nuvem e então (C) envie tudo para o cliente". A resposta dada pela "regra das duas potências" é: sim, mas a IA não pode completá-la "autonomamente". O processo precisa ser interrompido; uma janela pop-up aparece e um "humano" faz a confirmação final (intervenção humana). Você precisa ver por si mesmo o que a IA está prestes a fazer antes de pressionar o botão "Aprovar". Portanto, se você estiver desenvolvendo um agente de IA, não pense em gastar muito esforço criando um "assistente perfeito" onipotente e invencível. Em vez disso, você deve fazer concessões entre "capacidades" e "segurança". Essa também é uma mentalidade de engenharia madura e responsável: devemos projetar sistemas seguros, reconhecendo as limitações da tecnologia. Então, da próxima vez que você vir um produto de IA alegando que pode percorrer toda a internet, gerenciar toda a sua privacidade e lidar com tudo automaticamente para você, talvez queira fazer mais uma pergunta: Como conseguiu "escolher dois entre três"? Se alega ter "todos os três direitos", como pode garantir que não será "desmascarado" por um e-mail de spam algum dia? Essa "regra dos dois poderes" certamente não é o objetivo final. É simplesmente a solução de segurança mais confiável que podemos oferecer no momento (até 2025). Podemos encontrar soluções melhores no futuro, mas até lá, elaborar um plano de segurança sólido é sempre uma boa ideia. Metaartigo: https://t.co/9PBZf5PFy3 Novos artigos de Simon Willison sobre injeção de prontidão: A Regra dos Dois Agentes e O Atacante Age em Segundo Lugar:

O artigo de Meta

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread