AI Agent 的安全問題是大家都關心的問題,例如我就不敢授權給ChatGPT Atlas 這樣的瀏覽器Agent 綁定我的信用卡讓它幫我訂機票啥的,也不敢讓它替我發郵件之類,雖然這些AI 廠商都號稱他們的AI 多安全,能防止注入啥的,萬一呢! 事實上也如此,上月有篇論文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k,研究人員測試了市有惡意指令12 種最先進的「提示都能注入防禦系統」,試圖偵測100% 上12 種最先進的「提示都能注入防禦系統」,試圖偵測100% 行為上! 也就是說靠AI 自己防是防不住的!聰明(並且邪惡😈)的人類總有辦法繞過去。 既然AI 防不住,就得從別的地方想辦法,Meta 最近提出了一套非常務實、近乎「常識」的安全框架,叫做「智能體二權法則」(Agents Rule of Two)。 這個法則承認了一個前提:我們既然防不住提示注入,那就不防了。我們不應該在如何檢測上死磕,而應該在系統設計上下功夫,讓AI 即使被騙了,也造不成最大的破壞。 一個真正有用的AI 助理,本質上需要同時擁有三種強大的能力: A. 處理不可信的輸入 AI 可以讀取它無法控制和預測的外部資訊。例如,任何人寄來的郵件、網路上的文章、使用者輸入的任一段話。 B.存取敏感系統或私人數據 AI 能存取你的敏感資訊。例如,你的私人相簿、公司的保密文件、你的密碼庫、甚至是生產環境的伺服器。 C.改變系統狀態或對外通信 AI 能「動手做」工作。例如,刪除檔案、發送郵件、下單買東西、呼叫API。 「二權法則」的核心思想是: 一個AI 智能體在一次會話中,絕對不能同時擁有[A]、[B]、[C] 這全部三種能力。你最多只能「三選二」。 這就像一個安全取捨。讓我們來看看三種安全的組合: 1. 組合一(A + C):較低風險 場景: 允許AI 讀取一個公開網頁(A),然後幫我寫個總結並寄email給我(C)。 為什麼安全? 因為它全程碰不到我的私有資料(B)。就算網頁內容是惡意的(例如一個注入攻擊),它頂多就是發個垃圾郵件,但它偷不走我的密碼。 2. 組合二(A + B):較低風險 場景: 允許AI 讀取一個我剛收到的「不可信」郵件(A),然後幫我檢索我的私有通訊錄(B),看看這人是誰。 為什麼安全? 因為它不能「動手」(C)。它只能看,但不能把「郵件內容」和「通訊錄訊息」一起打包發給駭客。它是個「只讀」助手。 3. 組合三(B + C):較低風險 場景: 允許AI 存取我的私有行事曆(B),然後幫我寄電子郵件給我的同事(C)協調會議時間。 為什麼安全? 因為它不處理“不可信”的外部輸入(A)。所有的資料來源和操作物件都是我內部可信的。 那麼,什麼時候最危險呢? 當A + B + C 同時出現時-這就是「危險」區間。 場景: AI 讀取了一封來自陌生人的、包含惡意注入攻擊的郵件(A),然後AI被「說服」去訪問你的私有文件(B),最後把這些文件內容通過網絡請求(C)發送給了黑客。 那如果我的任務必須同時使用A、B、C 呢? 例如,我想讓AI “讀取我這封(A)剛收到的帶附件的郵件,從我的(B)私有雲盤裡找出相關項目資料,然後(C)把它們一起發給客戶。” 「二權法則」給出的答案是:可以,但AI 不能「自主」完成。 它必須停下來,彈出一個窗口,由“人類”來最終確認(Human-in-the-Loop)。你必須親眼看到AI 打算幹什麼,然後按下那個「批准」按鈕。 所以如果你開發AI Agent 的話,別想著花大量精力造一個無所不能、同時又刀槍不入的「完美助理」了,而必須在「能力」和「安全」之間做出取捨。 這也是一種成熟且負責任的工程思維:我們必須在承認技術限制的前提下,去設計一個安全的系統。 所以,當你下次看到一個AI 產品宣稱它既能全網漫遊、又能管理你所有隱私、還能全自動幫你搞定一切時,你可能要多問一句: 它是怎麼做到「三選二」的?如果它宣稱“三權全有”,那它憑什麼保證自己不會在某天被一封垃圾郵件“策反”呢? 這個「二權法則」當然也不是終點。它只是當下(2025年)我們能拿出的最可靠的安全方案。未來我們或許會找到更好的方案,但在那之前,先設計好安全方案,總歸是沒錯的。 Meta 的文章:https://t.co/9PBZf5PFy3 Simon Willison 的New prompt injection papers: Agents Rule of Two and The Attacker Moves Second:
Meta 的論文

