La seguridad de los agentes de IA es una preocupación para todos. Por ejemplo, no me atrevería a autorizar a un agente de navegador como ChatGPT Atlas para que vinculara mi tarjeta de crédito y reservara billetes de avión por mí, ni tampoco le permitiría enviar correos electrónicos en mi nombre, aunque estas empresas de IA afirmen que su IA es muy segura y puede prevenir ataques de inyección. ¿Y si lo hace? De hecho, así es. El mes pasado, un artículo titulado "El atacante se mueve en segundo lugar: los ataques adaptativos más fuertes eluden las defensas contra los jailbreaks de Llm y las inyecciones de comandos" (https://t.co/NMoDsBYV9k) mostró a investigadores probando 12 de los "sistemas de defensa contra inyecciones de comandos" más avanzados del mercado en un intento de detectar y filtrar comandos maliciosos, ¡pero todos ellos fueron vulnerados! En otras palabras, ¡la IA no puede defenderse! Los humanos inteligentes (y malvados 😈) siempre encontrarán la manera de sortearla. Dado que no existe defensa contra la IA, debemos encontrar otras soluciones. Meta propuso recientemente un marco de seguridad muy pragmático y casi de sentido común llamado «Regla de dos agentes». Este principio parte de una premisa: puesto que no podemos impedir la inyección de sugerencias, no deberíamos intentarlo. No deberíamos obsesionarnos con cómo detectarla, sino centrarnos en el diseño del sistema para que, incluso si la IA es engañada, no pueda causar el máximo daño. Un asistente de IA verdaderamente útil necesita esencialmente poseer tres capacidades poderosas simultáneamente: A. Manejo de entradas no confiables La IA puede leer información externa que no puede controlar ni predecir. Por ejemplo, correos electrónicos de cualquier remitente, artículos en línea o cualquier texto introducido por un usuario. B. Acceso a sistemas sensibles o datos privados La IA puede acceder a tu información confidencial. Por ejemplo, tu álbum de fotos privado, documentos confidenciales de la empresa, tu base de datos de contraseñas e incluso servidores en tu entorno de producción. C. Cambiar el estado del sistema o la comunicación externa La IA puede "hacer cosas". Por ejemplo, puede borrar archivos, enviar correos electrónicos, realizar pedidos y llamar a API. La idea central de la "regla de las dos potencias" es: Un agente de IA no puede poseer las tres habilidades [A], [B] y [C] simultáneamente en una misma conversación. Solo puede elegir dos de las tres como máximo. Esto es como una compensación en materia de seguridad. Analicemos tres combinaciones de seguridad: 1. Combinación 1 (A + C): Menor riesgo Escenario: Permitir que la IA lea una página web pública (A), luego escriba un resumen y me lo envíe por correo electrónico (C). ¿Por qué es seguro? Porque nunca accede a mis datos privados (B). Incluso si el contenido de la página web es malicioso (como un ataque de inyección), a lo sumo enviará spam, pero no podrá robar mi contraseña. 2. Combinación dos (A + B): Menor riesgo Escenario: Permitir que la IA lea un correo electrónico "no confiable" que acabo de recibir (A) y luego me ayude a buscar en mi libreta de direcciones privada (B) para ver quién es esta persona. ¿Por qué es seguro? Porque no puede "hacer nada" (C). Solo puede visualizar, pero no puede recopilar el contenido del correo electrónico ni la información de contacto para enviarlos a los hackers. Es un asistente de "solo lectura". 3. Combinación tres (B + C): Menor riesgo Escenario: Permitir que la IA acceda a mi calendario privado (B) y luego me ayude a enviar correos electrónicos a mis colegas (C) para coordinar los horarios de las reuniones. ¿Por qué es seguro? Porque no procesa entradas externas no confiables (A). Todas las fuentes de datos y objetos que se manipulan son internamente de mi confianza. Entonces, ¿cuándo es más peligroso? Cuando A + B + C aparecen simultáneamente, esta es la zona “peligrosa”. Escenario: La IA lee un correo electrónico de un extraño que contiene un ataque de inyección maliciosa (A), luego la IA es "persuadida" para acceder a sus archivos privados (B) y finalmente envía el contenido de estos archivos al hacker a través de una solicitud de red (C). ¿Qué ocurre si mi tarea requiere el uso simultáneo de A, B y C? Por ejemplo, quiero que la IA "lea este correo electrónico (A) que acabo de recibir con archivos adjuntos, encuentre la información relevante del proyecto en mi unidad en la nube privada (B) y luego (C) la envíe toda al cliente". La respuesta que da la "regla de las dos potencias" es: sí, pero la IA no puede completarla "de forma autónoma". Debe detenerse, aparece una ventana emergente y un humano realiza la confirmación final (intervención humana). Debe ver usted mismo lo que la IA está a punto de hacer antes de pulsar el botón "Aprobar". Así que, si estás desarrollando un agente de IA, no pienses en dedicar mucho esfuerzo a crear un "asistente perfecto" omnipotente e invencible. En cambio, debes encontrar un equilibrio entre "capacidades" y "seguridad". Esta es también una mentalidad de ingeniería madura y responsable: debemos diseñar sistemas seguros reconociendo al mismo tiempo las limitaciones de la tecnología. Así que, la próxima vez que veas un producto de IA que afirme poder navegar por toda la internet, gestionar toda tu privacidad y encargarse automáticamente de todo, quizá quieras hacerte una pregunta más: ¿Cómo logró "elegir dos de tres"? Si afirma tener "los tres derechos", ¿cómo puede garantizar que no será "engañado" por un correo electrónico no deseado algún día? Esta «regla de doble potencia» no es, desde luego, el objetivo final. Es simplemente la solución de seguridad más fiable que podemos ofrecer actualmente (hasta 2025). Puede que encontremos mejores soluciones en el futuro, pero hasta entonces, diseñar un plan de seguridad sólido siempre es una buena idea. Metaartículo: https://t.co/9PBZf5PFy3 Nuevos artículos de inyección de avisos de Simon Willison: La regla de dos de los agentes y El atacante actúa en segundo lugar:
El artículo de Meta

