La sécurité des agents d'IA est une préoccupation pour tous. Par exemple, je n'oserais jamais autoriser un agent de navigateur comme ChatGPT Atlas à lier ma carte de crédit et à réserver des billets d'avion à ma place, ni même à envoyer des courriels pour moi, même si ces entreprises d'IA affirment que leur système est très sécurisé et capable de prévenir les attaques par injection. Et si c'était le cas ? En effet, c'est le cas. Le mois dernier, un article intitulé « L'attaquant agit en second : des attaques adaptatives plus puissantes contournent les défenses contre les jailbreaks Llm et les injections promptes » (https://t.co/NMoDsBYV9k) a montré que des chercheurs avaient testé 12 des systèmes de défense contre les injections promptes les plus avancés du marché afin de détecter et de filtrer les commandes malveillantes, mais tous ont été compromis ! Autrement dit, l'IA ne peut pas se défendre seule ! Les humains, malins (et parfois un peu rusés 😈), trouveront toujours un moyen de la contourner. Puisqu'il est impossible de se prémunir contre l'IA, nous devons trouver d'autres solutions. Meta a récemment proposé un cadre de sécurité très pragmatique et presque « de bon sens » appelé « Règle des deux agents ». Ce principe repose sur un postulat : puisqu’il est impossible d’empêcher l’injection de suggestions, il ne faut pas chercher à l’empêcher. Il ne faut pas s’obséder sur la manière de la détecter, mais plutôt se concentrer sur la conception du système afin que, même si l’IA est trompée, elle ne puisse pas causer un maximum de dégâts. Un assistant IA véritablement utile doit essentiellement posséder simultanément trois capacités puissantes : A. Gestion des entrées non fiables L'IA peut lire des informations externes qu'elle ne peut ni contrôler ni prévoir, comme par exemple des courriels provenant de n'importe qui, des articles en ligne ou tout texte saisi par un utilisateur. B. Accès à des systèmes sensibles ou à des données privées L'IA peut accéder à vos informations sensibles. Par exemple, votre album photo privé, vos documents d'entreprise confidentiels, votre base de données de mots de passe, et même les serveurs de votre environnement de production. C. Modifier l'état du système ou la communication externe L'IA peut « accomplir des tâches ». Par exemple, elle peut supprimer des fichiers, envoyer des courriels, passer des commandes et appeler des API. L'idée centrale de la « règle des deux puissances » est la suivante : Un agent IA ne peut pas posséder simultanément les trois capacités [A], [B] et [C] au cours d'une même conversation. Vous ne pouvez en choisir que deux au maximum. C'est un compromis en matière de sécurité. Examinons trois combinaisons de sécurité : 1. Combinaison 1 (A + C) : Risque moindre Scénario : Permettre à l'IA de lire une page Web publique (A), puis d'écrire un résumé et de me l'envoyer par e-mail (C). Pourquoi est-ce sécurisé ? Parce que mes données personnelles ne sont jamais touchées (B). Même si le contenu de la page web est malveillant (comme une attaque par injection), il enverra tout au plus du spam, mais il ne pourra pas voler mon mot de passe. 2. Combinaison deux (A + B) : risque moindre Scénario : Permettre à l'IA de lire un e-mail « non fiable » que je viens de recevoir (A), puis de m'aider à rechercher dans mon carnet d'adresses privé (B) pour voir qui est cette personne. Pourquoi est-il sécurisé ? Parce qu’il ne peut rien faire (C). Il peut seulement consulter, mais ne peut pas regrouper le contenu des e-mails et les informations de contact pour les envoyer à des pirates informatiques. C’est un assistant en lecture seule. 3. Combinaison trois (B + C) : risque moindre Scénario : Autoriser l'IA à accéder à mon calendrier privé (B) puis à m'aider à envoyer des e-mails à mes collègues (C) pour coordonner les heures de réunion. Pourquoi est-ce sécurisé ? Parce que cela ne traite pas d’entrées externes « non fiables » (A). Toutes les sources de données et les objets manipulés sont, en interne, considérés comme fiables par moi. Alors, quand est-ce le plus dangereux ? Lorsque A + B + C apparaissent simultanément, il s'agit de la zone « dangereuse ». Scénario : L'IA lit un e-mail d'un inconnu contenant une attaque par injection malveillante (A), puis l'IA est « persuadée » d'accéder à vos fichiers privés (B), et envoie finalement le contenu de ces fichiers au pirate via une requête réseau (C). Que se passe-t-il si ma tâche nécessite l'utilisation simultanée de A, B et C ? Par exemple, je souhaite que l'IA « lise cet e-mail (A) que je viens de recevoir avec des pièces jointes, trouve les informations pertinentes du projet sur mon (B) disque cloud privé, puis (C) les envoie toutes au client. » La réponse apportée par la « règle des deux puissances » est : oui, mais l'IA ne peut pas la réaliser « de manière autonome ». Le processus doit s'arrêter, une fenêtre contextuelle apparaît et un humain effectue la confirmation finale (intervention humaine). Vous devez voir par vous-même ce que l'IA s'apprête à faire avant d'appuyer sur le bouton « Approuver ». Si vous développez un agent d'IA, ne cherchez pas à créer un « assistant parfait » omnipotent et invincible. Il vous faut plutôt faire des compromis entre « capacités » et « sécurité ». Il s'agit également d'une approche d'ingénierie mature et responsable : nous devons concevoir des systèmes sûrs tout en reconnaissant les limites de la technologie. Alors, la prochaine fois que vous verrez un produit d'IA prétendre pouvoir parcourir tout Internet, gérer votre vie privée et tout gérer automatiquement pour vous, vous pourriez vous poser une question supplémentaire : Comment a-t-elle réussi à « choisir deux sur trois » ? Si elle prétend détenir « les trois droits », comment peut-elle garantir qu’elle ne sera pas un jour « retournée » par un courriel indésirable ? Cette « règle des deux pouvoirs » n'est certes pas une fin en soi. Il s'agit simplement de la solution de sécurité la plus fiable que nous puissions proposer actuellement (jusqu'en 2025). Nous trouverons peut-être de meilleures solutions à l'avenir, mais d'ici là, élaborer un plan de sécurité solide reste toujours judicieux. Méta-article : https://t.co/9PBZf5PFy3 Nouveaux articles de Simon Willison sur l'injection de prompts : Agents Rule of Two et The Attacker Moves Second :
L'article de Meta

