LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

整个行业所有厂商都在等 Gemini 3.0 和 GPT-5.X 的发布

整个行业所有厂商都在等 Gemini 3.0 和 GPT-5.X 的发布

关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱

avatar for 歸藏(guizang.ai)
歸藏(guizang.ai)
Thu Nov 06 03:29:00
AI Agent 的安全问题是大家都关心的问题,比如我就不敢授权给 ChatGPT Atlas 这样的浏览器 Agent 绑定我的信用卡让它帮我订机票啥的,也不敢让它替我发邮件之类,虽然这些 AI 厂商都号称他们的 AI 多安全,能防止注入啥的,万一呢!

事实上也如此,上月有篇论文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k,研究人员测试了市面上 12 种最先进的“提示注入防御系统”,试图检测和过滤恶意指令,但结果 100% 都能被攻破!

也就是说靠 AI 自己防是防不住的!聪明(并且邪恶😈)的人类总有办法绕过去。

既然 AI 防不住,那就得从别的地方想办法,Meta 最近提出了一套非常务实、近乎“常识”的安全框架,叫做“智能体二权法则”(Agents Rule of Two)。

这个法则承认了一个前提:我们既然防不住提示注入,那就不防了。我们不应该在如何检测上死磕,而应该在系统设计上下功夫,让 AI 即使被骗了,也造不成最大的破坏。

一个真正有用的 AI 助理,本质上需要同时拥有三种强大的能力:

A. 处理不可信的输入
AI 可以读取它无法控制和预测的外部信息。比如,任何人发来的邮件、网上的文章、用户输入的任意一段话。

B.访问敏感系统或私有数据
AI 能访问到你的敏感信息。比如,你的私人相册、公司的保密文档、你的密码库、甚至是生产环境的服务器。

C.改变系统状态或对外通信
AI 能“动手”干活。比如,删除文件、发送邮件、下单买东西、调用 API。

“二权法则”的核心思想是:
一个 AI 智能体在一次会话中,绝对不能同时拥有 [A]、[B]、[C] 这全部三种能力。你最多只能“三选二”。

这就像一个安全取舍。我们来看看三种安全的组合:

1. 组合一 (A + C):较低风险

场景: 允许 AI 读取一个公开网页(A),然后帮我写个总结并发邮件给我(C)。

为什么安全? 因为它全程碰不到我的私有数据(B)。就算网页内容是恶意的(比如一个注入攻击),它顶多就是发个垃圾邮件,但它偷不走我的密码。

2. 组合二 (A + B):较低风险

场景: 允许 AI 读取一个我刚收到的“不可信”邮件(A),然后帮我检索我的私有通讯录(B),看看这人是谁。

为什么安全? 因为它不能“动手”(C)。它只能看,但不能把“邮件内容”和“通讯录信息”一起打包发给黑客。它是个“只读”助手。

3. 组合三 (B + C):较低风险

场景: 允许 AI 访问我的私有日历(B),然后帮我给我的同事发邮件(C)协调会议时间。

为什么安全? 因为它不处理“不可信”的外部输入(A)。所有的数据源和操作对象都是我内部可信的。

那么,什么时候最危险?

当 A + B + C 同时出现时——这就是“危险”区间。

场景: AI 读取了一封来自陌生人的、包含恶意注入攻击的邮件(A),然后AI被“说服”去访问你的私有文件(B),最后把这些文件内容通过网络请求(C)发送给了黑客。

那如果我的任务必须同时用到 A、B、C 呢? 比如,我想让 AI “读取我这封(A)刚收到的带附件的邮件,从我的(B)私有云盘里找出相关项目资料,然后(C)把它们一起发给客户。”

“二权法则”给出的答案是:可以,但 AI 不能“自主”完成。

它必须停下来,弹出一个窗口,由“人类”来最终确认(Human-in-the-Loop)。你必须亲眼看到 AI 打算干什么,然后按下那个“批准”按钮。

所以如果你开发 AI Agent 的话,别想着花大量精力造一个无所不能、同时又刀枪不入的“完美助理”了,而必须在“能力”和“安全”之间做出取舍。

这也是一种成熟负责任的工程思维:我们必须在承认技术局限性的前提下,去设计安全的系统。

所以,当你下次看到一个 AI 产品宣称它既能全网漫游、又能管理你所有隐私、还能全自动帮你搞定一切时,你可能要多问一句:
它是怎么做到“三选二”的?如果它宣称“三权全有”,那它凭什么保证自己不会在某天被一封垃圾邮件“策反”呢?

这个“二权法则”当然也不是终点。它只是当下(2025年)我们能拿出的最靠谱的安全方案。未来我们或许会找到更好的方案,但在那之前,先设计好安全方案,总归是没错的。

Meta 的文章 :https://t.co/9PBZf5PFy3
Simon Willison 的 New prompt injection papers: Agents Rule of Two and The Attacker Moves Second:

AI Agent 的安全问题是大家都关心的问题,比如我就不敢授权给 ChatGPT Atlas 这样的浏览器 Agent 绑定我的信用卡让它帮我订机票啥的,也不敢让它替我发邮件之类,虽然这些 AI 厂商都号称他们的 AI 多安全,能防止注入啥的,万一呢! 事实上也如此,上月有篇论文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》https://t.co/NMoDsBYV9k,研究人员测试了市面上 12 种最先进的“提示注入防御系统”,试图检测和过滤恶意指令,但结果 100% 都能被攻破! 也就是说靠 AI 自己防是防不住的!聪明(并且邪恶😈)的人类总有办法绕过去。 既然 AI 防不住,那就得从别的地方想办法,Meta 最近提出了一套非常务实、近乎“常识”的安全框架,叫做“智能体二权法则”(Agents Rule of Two)。 这个法则承认了一个前提:我们既然防不住提示注入,那就不防了。我们不应该在如何检测上死磕,而应该在系统设计上下功夫,让 AI 即使被骗了,也造不成最大的破坏。 一个真正有用的 AI 助理,本质上需要同时拥有三种强大的能力: A. 处理不可信的输入 AI 可以读取它无法控制和预测的外部信息。比如,任何人发来的邮件、网上的文章、用户输入的任意一段话。 B.访问敏感系统或私有数据 AI 能访问到你的敏感信息。比如,你的私人相册、公司的保密文档、你的密码库、甚至是生产环境的服务器。 C.改变系统状态或对外通信 AI 能“动手”干活。比如,删除文件、发送邮件、下单买东西、调用 API。 “二权法则”的核心思想是: 一个 AI 智能体在一次会话中,绝对不能同时拥有 [A]、[B]、[C] 这全部三种能力。你最多只能“三选二”。 这就像一个安全取舍。我们来看看三种安全的组合: 1. 组合一 (A + C):较低风险 场景: 允许 AI 读取一个公开网页(A),然后帮我写个总结并发邮件给我(C)。 为什么安全? 因为它全程碰不到我的私有数据(B)。就算网页内容是恶意的(比如一个注入攻击),它顶多就是发个垃圾邮件,但它偷不走我的密码。 2. 组合二 (A + B):较低风险 场景: 允许 AI 读取一个我刚收到的“不可信”邮件(A),然后帮我检索我的私有通讯录(B),看看这人是谁。 为什么安全? 因为它不能“动手”(C)。它只能看,但不能把“邮件内容”和“通讯录信息”一起打包发给黑客。它是个“只读”助手。 3. 组合三 (B + C):较低风险 场景: 允许 AI 访问我的私有日历(B),然后帮我给我的同事发邮件(C)协调会议时间。 为什么安全? 因为它不处理“不可信”的外部输入(A)。所有的数据源和操作对象都是我内部可信的。 那么,什么时候最危险? 当 A + B + C 同时出现时——这就是“危险”区间。 场景: AI 读取了一封来自陌生人的、包含恶意注入攻击的邮件(A),然后AI被“说服”去访问你的私有文件(B),最后把这些文件内容通过网络请求(C)发送给了黑客。 那如果我的任务必须同时用到 A、B、C 呢? 比如,我想让 AI “读取我这封(A)刚收到的带附件的邮件,从我的(B)私有云盘里找出相关项目资料,然后(C)把它们一起发给客户。” “二权法则”给出的答案是:可以,但 AI 不能“自主”完成。 它必须停下来,弹出一个窗口,由“人类”来最终确认(Human-in-the-Loop)。你必须亲眼看到 AI 打算干什么,然后按下那个“批准”按钮。 所以如果你开发 AI Agent 的话,别想着花大量精力造一个无所不能、同时又刀枪不入的“完美助理”了,而必须在“能力”和“安全”之间做出取舍。 这也是一种成熟负责任的工程思维:我们必须在承认技术局限性的前提下,去设计安全的系统。 所以,当你下次看到一个 AI 产品宣称它既能全网漫游、又能管理你所有隐私、还能全自动帮你搞定一切时,你可能要多问一句: 它是怎么做到“三选二”的?如果它宣称“三权全有”,那它凭什么保证自己不会在某天被一封垃圾邮件“策反”呢? 这个“二权法则”当然也不是终点。它只是当下(2025年)我们能拿出的最靠谱的安全方案。未来我们或许会找到更好的方案,但在那之前,先设计好安全方案,总归是没错的。 Meta 的文章 :https://t.co/9PBZf5PFy3 Simon Willison 的 New prompt injection papers: Agents Rule of Two and The Attacker Moves Second:

Meta 的论文

avatar for 宝玉
宝玉
Thu Nov 06 03:26:27
the X algo is perhaps more sycophantic than chatgpt/claude

the X algo is perhaps more sycophantic than chatgpt/claude

investing in worldbuilders 🌐 @browserbase @sfcompute @itsalltruffles @flowercomputers @aetherfluxusa @_interfere prev @a16z

avatar for Sumeet Singh
Sumeet Singh
Thu Nov 06 03:26:19
查看全文:https://t.co/FI3MmzrNXO

查看全文:https://t.co/FI3MmzrNXO

独立科技网站 - 蓝点网 / 感谢关注 订阅频道:https://t.co/xzeoUEoPcU 联系方式:https://t.co/LJK1g3biPp

avatar for 蓝点网
蓝点网
Thu Nov 06 03:26:16
小米通话应用将在 12 月 3 日停止服务并清除数据,部分用户吐槽无法再帮助老人解决手机上的问题。小米通话应用本身提供音视频通话但不是重点,重点是该应用提供协助功能,部分用户通过该功能帮助老人家解决手机上的各种问题,后续该应用下架后用户想要远程协助帮助老人家处理问题会非常麻烦。

小米通话应用将在 12 月 3 日停止服务并清除数据,部分用户吐槽无法再帮助老人解决手机上的问题。小米通话应用本身提供音视频通话但不是重点,重点是该应用提供协助功能,部分用户通过该功能帮助老人家解决手机上的各种问题,后续该应用下架后用户想要远程协助帮助老人家处理问题会非常麻烦。

查看全文:https://t.co/FI3MmzrNXO

avatar for 蓝点网
蓝点网
Thu Nov 06 03:26:12
Han Chinese and Hajnali are two of… four I'd say maximally interesting evolutionary strategies of H. Sapiens. They converged in some outcomes, but diverged in implementations.
Hajnali «high trust» is about naturally vibing together. Chinese «high trust» is about discipline.

Han Chinese and Hajnali are two of… four I'd say maximally interesting evolutionary strategies of H. Sapiens. They converged in some outcomes, but diverged in implementations. Hajnali «high trust» is about naturally vibing together. Chinese «high trust» is about discipline.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Thu Nov 06 03:26:08
  • Previous
  • 1
  • More pages
  • 756
  • 757
  • 758
  • More pages
  • 2111
  • Next