X (Twitter)

AI Agent 的安全問題是大家都關心的問題，例如我就不敢授權給ChatGPT Atlas 這樣的瀏覽器Agent 綁定我的信用卡讓它幫我訂機票啥的，也不敢讓它替我發郵件之類，雖然這些AI 廠商都號稱他們的AI 多安全，能防止注入啥的，萬一呢！事實上也如此，上月有篇論文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k，研究人員測試了市有惡意指令12 種最先進的「提示都能注入防禦系統」，試圖偵測100% 上12 種最先進的「提示都能注入防禦系統」，試圖偵測100% 行為上！也就是說靠AI 自己防是防不住的！聰明（並且邪惡😈）的人類總有辦法繞過去。既然AI 防不住，就得從別的地方想辦法，Meta 最近提出了一套非常務實、近乎「常識」的安全框架，叫做「智能體二權法則」（Agents Rule of Two）。這個法則承認了一個前提：我們既然防不住提示注入，那就不防了。我們不應該在如何檢測上死磕，而應該在系統設計上下功夫，讓AI 即使被騙了，也造不成最大的破壞。一個真正有用的AI 助理，本質上需要同時擁有三種強大的能力： A. 處理不可信的輸入 AI 可以讀取它無法控制和預測的外部資訊。例如，任何人寄來的郵件、網路上的文章、使用者輸入的任一段話。 B.存取敏感系統或私人數據 AI 能存取你的敏感資訊。例如，你的私人相簿、公司的保密文件、你的密碼庫、甚至是生產環境的伺服器。 C.改變系統狀態或對外通信 AI 能「動手做」工作。例如，刪除檔案、發送郵件、下單買東西、呼叫API。「二權法則」的核心思想是：一個AI 智能體在一次會話中，絕對不能同時擁有[A]、[B]、[C] 這全部三種能力。你最多只能「三選二」。這就像一個安全取捨。讓我們來看看三種安全的組合： 1. 組合一(A + C)：較低風險場景：允許AI 讀取一個公開網頁（A），然後幫我寫個總結並寄email給我（C）。為什麼安全？因為它全程碰不到我的私有資料（B）。就算網頁內容是惡意的（例如一個注入攻擊），它頂多就是發個垃圾郵件，但它偷不走我的密碼。 2. 組合二(A + B)：較低風險場景：允許AI 讀取一個我剛收到的「不可信」郵件（A），然後幫我檢索我的私有通訊錄（B），看看這人是誰。為什麼安全？因為它不能「動手」（C）。它只能看，但不能把「郵件內容」和「通訊錄訊息」一起打包發給駭客。它是個「只讀」助手。 3. 組合三(B + C)：較低風險場景：允許AI 存取我的私有行事曆（B），然後幫我寄電子郵件給我的同事（C）協調會議時間。為什麼安全？因為它不處理“不可信”的外部輸入（A）。所有的資料來源和操作物件都是我內部可信的。那麼，什麼時候最危險呢？當A + B + C 同時出現時－這就是「危險」區間。場景： AI 讀取了一封來自陌生人的、包含惡意注入攻擊的郵件（A），然後AI被「說服」去訪問你的私有文件（B），最後把這些文件內容通過網絡請求（C）發送給了黑客。那如果我的任務必須同時使用A、B、C 呢？例如，我想讓AI “讀取我這封（A）剛收到的帶附件的郵件，從我的（B）私有雲盤裡找出相關項目資料，然後（C）把它們一起發給客戶。” 「二權法則」給出的答案是：可以，但AI 不能「自主」完成。它必須停下來，彈出一個窗口，由“人類”來最終確認（Human-in-the-Loop）。你必須親眼看到AI 打算幹什麼，然後按下那個「批准」按鈕。所以如果你開發AI Agent 的話，別想著花大量精力造一個無所不能、同時又刀槍不入的「完美助理」了，而必須在「能力」和「安全」之間做出取捨。這也是一種成熟且負責任的工程思維：我們必須在承認技術限制的前提下，去設計一個安全的系統。所以，當你下次看到一個AI 產品宣稱它既能全網漫遊、又能管理你所有隱私、還能全自動幫你搞定一切時，你可能要多問一句：它是怎麼做到「三選二」的？如果它宣稱“三權全有”，那它憑什麼保證自己不會在某天被一封垃圾郵件“策反”呢？這個「二權法則」當然也不是終點。它只是當下（2025年）我們能拿出的最可靠的安全方案。未來我們或許會找到更好的方案，但在那之前，先設計好安全方案，總歸是沒錯的。 Meta 的文章：https://t.co/9PBZf5PFy3 Simon Willison 的New prompt injection papers: Agents Rule of Two and The Attacker Moves Second：

Meta 的論文

来自宝玉（@dotey）的推文线程

作者信息

线程正文