开启时会模糊预览图,关闭后正常显示

关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱

![AI Agent 的安全问题是大家都关心的问题,比如我就不敢授权给 ChatGPT Atlas 这样的浏览器 Agent 绑定我的信用卡让它帮我订机票啥的,也不敢让它替我发邮件之类,虽然这些 AI 厂商都号称他们的 AI 多安全,能防止注入啥的,万一呢!
事实上也如此,上月有篇论文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k,研究人员测试了市面上 12 种最先进的“提示注入防御系统”,试图检测和过滤恶意指令,但结果 100% 都能被攻破!
也就是说靠 AI 自己防是防不住的!聪明(并且邪恶😈)的人类总有办法绕过去。
既然 AI 防不住,那就得从别的地方想办法,Meta 最近提出了一套非常务实、近乎“常识”的安全框架,叫做“智能体二权法则”(Agents Rule of Two)。
这个法则承认了一个前提:我们既然防不住提示注入,那就不防了。我们不应该在如何检测上死磕,而应该在系统设计上下功夫,让 AI 即使被骗了,也造不成最大的破坏。
一个真正有用的 AI 助理,本质上需要同时拥有三种强大的能力:
A. 处理不可信的输入
AI 可以读取它无法控制和预测的外部信息。比如,任何人发来的邮件、网上的文章、用户输入的任意一段话。
B.访问敏感系统或私有数据
AI 能访问到你的敏感信息。比如,你的私人相册、公司的保密文档、你的密码库、甚至是生产环境的服务器。
C.改变系统状态或对外通信
AI 能“动手”干活。比如,删除文件、发送邮件、下单买东西、调用 API。
“二权法则”的核心思想是:
一个 AI 智能体在一次会话中,绝对不能同时拥有 [A]、[B]、[C] 这全部三种能力。你最多只能“三选二”。
这就像一个安全取舍。我们来看看三种安全的组合:
1. 组合一 (A + C):较低风险
场景: 允许 AI 读取一个公开网页(A),然后帮我写个总结并发邮件给我(C)。
为什么安全? 因为它全程碰不到我的私有数据(B)。就算网页内容是恶意的(比如一个注入攻击),它顶多就是发个垃圾邮件,但它偷不走我的密码。
2. 组合二 (A + B):较低风险
场景: 允许 AI 读取一个我刚收到的“不可信”邮件(A),然后帮我检索我的私有通讯录(B),看看这人是谁。
为什么安全? 因为它不能“动手”(C)。它只能看,但不能把“邮件内容”和“通讯录信息”一起打包发给黑客。它是个“只读”助手。
3. 组合三 (B + C):较低风险
场景: 允许 AI 访问我的私有日历(B),然后帮我给我的同事发邮件(C)协调会议时间。
为什么安全? 因为它不处理“不可信”的外部输入(A)。所有的数据源和操作对象都是我内部可信的。
那么,什么时候最危险?
当 A + B + C 同时出现时——这就是“危险”区间。
场景: AI 读取了一封来自陌生人的、包含恶意注入攻击的邮件(A),然后AI被“说服”去访问你的私有文件(B),最后把这些文件内容通过网络请求(C)发送给了黑客。
那如果我的任务必须同时用到 A、B、C 呢? 比如,我想让 AI “读取我这封(A)刚收到的带附件的邮件,从我的(B)私有云盘里找出相关项目资料,然后(C)把它们一起发给客户。”
“二权法则”给出的答案是:可以,但 AI 不能“自主”完成。
它必须停下来,弹出一个窗口,由“人类”来最终确认(Human-in-the-Loop)。你必须亲眼看到 AI 打算干什么,然后按下那个“批准”按钮。
所以如果你开发 AI Agent 的话,别想着花大量精力造一个无所不能、同时又刀枪不入的“完美助理”了,而必须在“能力”和“安全”之间做出取舍。
这也是一种成熟负责任的工程思维:我们必须在承认技术局限性的前提下,去设计安全的系统。
所以,当你下次看到一个 AI 产品宣称它既能全网漫游、又能管理你所有隐私、还能全自动帮你搞定一切时,你可能要多问一句:
它是怎么做到“三选二”的?如果它宣称“三权全有”,那它凭什么保证自己不会在某天被一封垃圾邮件“策反”呢?
这个“二权法则”当然也不是终点。它只是当下(2025年)我们能拿出的最靠谱的安全方案。未来我们或许会找到更好的方案,但在那之前,先设计好安全方案,总归是没错的。
Meta 的文章 :https://t.co/9PBZf5PFy3
Simon Willison 的 New prompt injection papers: Agents Rule of Two and The Attacker Moves Second: AI Agent 的安全问题是大家都关心的问题,比如我就不敢授权给 ChatGPT Atlas 这样的浏览器 Agent 绑定我的信用卡让它帮我订机票啥的,也不敢让它替我发邮件之类,虽然这些 AI 厂商都号称他们的 AI 多安全,能防止注入啥的,万一呢!
事实上也如此,上月有篇论文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k,研究人员测试了市面上 12 种最先进的“提示注入防御系统”,试图检测和过滤恶意指令,但结果 100% 都能被攻破!
也就是说靠 AI 自己防是防不住的!聪明(并且邪恶😈)的人类总有办法绕过去。
既然 AI 防不住,那就得从别的地方想办法,Meta 最近提出了一套非常务实、近乎“常识”的安全框架,叫做“智能体二权法则”(Agents Rule of Two)。
这个法则承认了一个前提:我们既然防不住提示注入,那就不防了。我们不应该在如何检测上死磕,而应该在系统设计上下功夫,让 AI 即使被骗了,也造不成最大的破坏。
一个真正有用的 AI 助理,本质上需要同时拥有三种强大的能力:
A. 处理不可信的输入
AI 可以读取它无法控制和预测的外部信息。比如,任何人发来的邮件、网上的文章、用户输入的任意一段话。
B.访问敏感系统或私有数据
AI 能访问到你的敏感信息。比如,你的私人相册、公司的保密文档、你的密码库、甚至是生产环境的服务器。
C.改变系统状态或对外通信
AI 能“动手”干活。比如,删除文件、发送邮件、下单买东西、调用 API。
“二权法则”的核心思想是:
一个 AI 智能体在一次会话中,绝对不能同时拥有 [A]、[B]、[C] 这全部三种能力。你最多只能“三选二”。
这就像一个安全取舍。我们来看看三种安全的组合:
1. 组合一 (A + C):较低风险
场景: 允许 AI 读取一个公开网页(A),然后帮我写个总结并发邮件给我(C)。
为什么安全? 因为它全程碰不到我的私有数据(B)。就算网页内容是恶意的(比如一个注入攻击),它顶多就是发个垃圾邮件,但它偷不走我的密码。
2. 组合二 (A + B):较低风险
场景: 允许 AI 读取一个我刚收到的“不可信”邮件(A),然后帮我检索我的私有通讯录(B),看看这人是谁。
为什么安全? 因为它不能“动手”(C)。它只能看,但不能把“邮件内容”和“通讯录信息”一起打包发给黑客。它是个“只读”助手。
3. 组合三 (B + C):较低风险
场景: 允许 AI 访问我的私有日历(B),然后帮我给我的同事发邮件(C)协调会议时间。
为什么安全? 因为它不处理“不可信”的外部输入(A)。所有的数据源和操作对象都是我内部可信的。
那么,什么时候最危险?
当 A + B + C 同时出现时——这就是“危险”区间。
场景: AI 读取了一封来自陌生人的、包含恶意注入攻击的邮件(A),然后AI被“说服”去访问你的私有文件(B),最后把这些文件内容通过网络请求(C)发送给了黑客。
那如果我的任务必须同时用到 A、B、C 呢? 比如,我想让 AI “读取我这封(A)刚收到的带附件的邮件,从我的(B)私有云盘里找出相关项目资料,然后(C)把它们一起发给客户。”
“二权法则”给出的答案是:可以,但 AI 不能“自主”完成。
它必须停下来,弹出一个窗口,由“人类”来最终确认(Human-in-the-Loop)。你必须亲眼看到 AI 打算干什么,然后按下那个“批准”按钮。
所以如果你开发 AI Agent 的话,别想着花大量精力造一个无所不能、同时又刀枪不入的“完美助理”了,而必须在“能力”和“安全”之间做出取舍。
这也是一种成熟负责任的工程思维:我们必须在承认技术局限性的前提下,去设计安全的系统。
所以,当你下次看到一个 AI 产品宣称它既能全网漫游、又能管理你所有隐私、还能全自动帮你搞定一切时,你可能要多问一句:
它是怎么做到“三选二”的?如果它宣称“三权全有”,那它凭什么保证自己不会在某天被一封垃圾邮件“策反”呢?
这个“二权法则”当然也不是终点。它只是当下(2025年)我们能拿出的最靠谱的安全方案。未来我们或许会找到更好的方案,但在那之前,先设计好安全方案,总归是没错的。
Meta 的文章 :https://t.co/9PBZf5PFy3
Simon Willison 的 New prompt injection papers: Agents Rule of Two and The Attacker Moves Second:](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5CpntNWUAAe-7N.jpg&w=3840&q=75)
Meta 的论文


investing in worldbuilders 🌐 @browserbase @sfcompute @itsalltruffles @flowercomputers @aetherfluxusa @_interfere prev @a16z


独立科技网站 - 蓝点网 / 感谢关注 订阅频道:https://t.co/xzeoUEoPcU 联系方式:https://t.co/LJK1g3biPp


查看全文:https://t.co/FI3MmzrNXO


We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1
