AIエージェントのセキュリティは誰にとっても懸念事項です。例えば、ChatGPT Atlasのようなブラウザエージェントにクレジットカード情報を紐付けて航空券を予約させたり、メールの送信を許可したりすることは、AI企業が自社のAIは非常に安全でインジェクション攻撃を防げると主張していても、私なら絶対にしません。もし本当にそうだったらどうなるでしょうか? まさにその通りです。先月発表された「攻撃者は二の次:より強力な適応型攻撃がLLMの脱獄とプロンプト・インジェクションに対する防御を迂回する」(https://t.co/NMoDsBYV9k)という論文では、研究者たちが市場で最も先進的な「プロンプト・インジェクション防御システム」12種類をテストし、悪意のあるコマンドの検出とフィルタリングを試みた結果が示されていますが、いずれも侵入に遭いました。 つまり、AIは自らを守ることができないのです!賢い(そして邪悪な😈)人間は必ずそれを回避する方法を見つけ出すでしょう。 AIは防御できないため、他の解決策を見つける必要があります。Metaは最近、「Agents Rule of Two」と呼ばれる、非常に実用的でほぼ「常識」的なセキュリティフレームワークを提案しました。 この原則は、一つの前提を前提としています。それは、提案の挿入を防ぐことはできないので、それを防ごうとすべきではないということです。提案の挿入をどのように検出するかにこだわるのではなく、AIが騙されても最大の被害を及ぼさないようなシステム設計に重点を置くべきです。 本当に役立つ AI アシスタントは、基本的に次の 3 つの強力な機能を同時に備えている必要があります。 A. 信頼できない入力の処理 AIは、制御または予測できない外部情報を読み取ることができます。例えば、誰かからのメール、オンラインの記事、ユーザーが入力したテキストなどです。 B. 機密システムまたは個人データへのアクセス AIはあなたの機密情報にアクセスできます。例えば、プライベートな写真アルバム、会社の機密文書、パスワードデータベース、さらには本番環境のサーバーなどです。 C. システム状態または外部通信の変更 AIは「物事を成し遂げる」ことができます。例えば、ファイルを削除したり、メールを送信したり、注文したり、APIを呼び出したりすることができます。 「二大勢力のルール」の核となる考え方は次のとおりです。 AIエージェントは、1回の会話で[A]、[B]、[C]の3つの能力を同時にすべて持つことはできません。3つのうち最大2つしか選択できません。 これは安全性のトレードオフのようなものです。安全性の3つの組み合わせを見てみましょう。 1. 組み合わせ1(A + C):リスクが低い シナリオ: AI に公開 Web ページ (A) を読み取ってもらい、要約を書いてメールで送信してもらいます (C)。 なぜ安全なのでしょうか?それは、個人情報(B)に一切触れないからです。たとえウェブページのコンテンツが悪意のあるもの(インジェクション攻撃など)であっても、せいぜいスパムメールが送信される程度で、パスワードを盗むことはできません。 2. 組み合わせ2(A + B):リスクが低い シナリオ: AI が、受信した「信頼できない」電子メール (A) を読み取り、その後、この人物が誰であるかを確認するために、プライベート アドレス帳 (B) の検索を手伝ってくれるようにします。 なぜ安全なのでしょうか?それは「何もできない」(C)からです。閲覧はできますが、「メールの内容」と「連絡先情報」をまとめてハッカーに送信することはできません。つまり、「読み取り専用」のアシスタントなのです。 3. 組み合わせ3(B + C):リスクが低い シナリオ: AI が私のプライベート カレンダー (B) にアクセスできるようにし、会議の時間を調整するために同僚にメールを送信できるように支援します (C)。 なぜ安全なのでしょうか?それは、「信頼できない」外部入力(A)を処理しないからです。操作対象となるすべてのデータソースとオブジェクトは、内部的に信頼されているからです。 では、最も危険なのはいつでしょうか? A + B + C が同時に出現した場合、これは「危険」ゾーンです。 シナリオ: AI は、悪意のあるインジェクション攻撃 (A) を含む見知らぬ人からの電子メールを読み取り、次に AI はユーザーの個人ファイル (B) にアクセスするように「説得」され、最終的にこれらのファイルの内容をネットワーク リクエスト (C) 経由でハッカーに送信します。 タスクでA、B、Cを同時に使用する必要がある場合はどうすればよいでしょうか?例えば、AIに「先ほど受信した添付ファイル付きのメール(A)を読み取り、(B)プライベートクラウドドライブから関連するプロジェクト情報を検索し、(C)それらをすべてクライアントに送信する」ようにさせたいとします。 「2 パワー ルール」によって得られる答えは、「はい」ですが、AI はそれを「自律的に」完了することはできません。 処理は停止し、ポップアップウィンドウが表示され、「人間」が最終確認を行います(Human-in-the-Loop)。「承認」ボタンを押す前に、AIが何をしようとしているのかを必ずご自身で確認する必要があります。 したがって、AIエージェントを開発する際には、全能で無敵の「完璧なアシスタント」を作るために多大な労力を費やすことは考えないでください。むしろ、「機能」と「安全性」の間でトレードオフを行う必要があります。 これは成熟した責任あるエンジニアリングの考え方でもあります。テクノロジーの限界を認識しながら、安全なシステムを設計する必要があります。 したがって、インターネット全体を歩き回り、すべてのプライバシーを管理し、すべてを自動的に処理できると主張する AI 製品が次に表示されたときは、もう 1 つ質問してみるとよいかもしれません。 一体どうやって「3つのうち2つを選ぶ」ことができたのでしょうか?「3つの権利すべて」を持っていると主張するなら、いつかスパムメールによって「裏切られる」ことがないと、どうして保証できるのでしょうか? この「二大勢力のルール」は決して最終目標ではありません。これは、現在(2025年まで)私たちが提供できる最も信頼性の高いセキュリティソリューションに過ぎません。将来的にはより優れたソリューションが見つかるかもしれませんが、それまでは、健全なセキュリティプランを設計することが常に重要です。 メタ記事: https://t.co/9PBZf5PFy3 サイモン・ウィリソンの新しい即席注入論文: エージェントの2人ルールと攻撃者が2番目に動く:
メタの論文

