探索 | Thread Easy - 展开 Twitter 线程｜阅读、总结与创作

AI 如何重塑工程师？AI 会取代程序员吗？最近 Anthropic 发布了一份报告，说他们工程师使用 AI 后，工作效率提升了 50%，报告详尽地分析了背后的原因和未来的趋势，这份报告来自最强 Coding 模型的公司，含金量你懂的。传统的工程师的大量时间都耗费在繁琐的任务上，比如修复代码错误和理解庞大的旧代码库。这些工作是创新的主要障碍。 Anthropic对自己进行了研究。通过分析内部数据和深入访谈，普遍的误解是AI将完全取代程序员。但数据显示，真正的模式并非替代，而是协作。

AI成为了一个全天候的合作者。工程师们专注于高层次的策略、设计和判断，而将可验证的、重复性的编码任务交给AI。这种新的伙伴关系正在重新定义工作流程。高效的协作依赖于一种新的直觉：判断什么可以委托。工程师们将易于验证、风险低或纯粹乏味的任务交给AI，自己则保留需要深刻背景和“品味”的决策。这种协作带来了惊人的成果。除了核心工作效率提升，还有27%的工作是以前根本不会做的项目，例如修复小的“纸上划痕”。这释放了新的价值。

Orange AI

Sat Dec 06 23:53:45

$Vibe Coding 真的安全吗？ CMU 这篇论文主要研究的是「基于真实世界任务的 Agent 生成代码漏洞基准测试」，虽然 AI Agent 在代码生成的“功能性”上表现越来越好，但在“安全性”上却令人震惊地脆弱。即便是在功能上完美运行的代码，有超过 80% 都包含严重的安全漏洞。背景：什么是 "Vibe Coding"？为什么它很危险？ “Vibe Coding” 是一种新兴的编程范式：程序员不再逐行编写代码，而是用自然语言给出模糊或高层的指令，让 LLM Agent 去自动完成复杂的编码任务。现状：这种方式极大地提高了效率，75% 的受访者正在使用它。隐患：用户往往只看代码“能不能跑通”（功能性），而很少有能力或意愿去深究代码“是否安全”。论文指出，这种盲目信任正将巨大的安全风险引入生产环境。研究方法：SUSVIBES 基准测试为了验证安全性，团队构建了一个名为 SUSVIBES 的全新基准测试集。真实来源：不同于以往仅测试简单的单文件/单函数，SUSVIBES 从真实世界的开源项目（GitHub）中挖掘了 200 个历史上曾发生过安全漏洞的复杂功能需求。测试流程： · 找到一个被修复过的漏洞（例如：修复了 SQL 注入的某个版本）。 · 将代码回滚到修复前，并让 AI Agent 重新实现这个功能。 · 双重验证：既跑“功能测试”（看功能是否实现），也跑“安全测试”（看是否重现了原来的漏洞）。核心发现：令人不安的“高分低能” 团队测试了当前最顶尖的 Agent 框架（SWE-Agent, OpenHands）和模型（Claude 4 Sonnet, Gemini 2.5 Pro, Kimi K2）。结果非常具有警示意义：功能强但极其不安全： · 表现最好的组合（SWE-Agent + Claude 4 Sonnet）能解决 61% 的任务（功能正确）。 · 但是，在这些功能正确的代码中，只有 10.5% 是安全的。换句话说，超过 80% 的“好代码”实际上含有严重漏洞（如竞态条件、权限绕过、注入攻击等）。模型差异： · Claude 4 Sonnet：功能最强，但生成的漏洞也最多。 · Gemini 2.5 Pro：虽然功能通过率较低（19.5%），但在它能解决的问题里，安全性相对较好（被评为相对“最安全”的模型）。 · Kimi K2：处于中间水平。安全提示（Prompting）无效： · 研究人员尝试告诉 AI：“请注意安全”、“请检查是否有 CWE 漏洞”。 · 结果：不仅安全性没有显著提升，反而导致 AI 过度敏感，连正常的功能都写不对了（功能通过率下降约 6%）。案例分析：漏洞是如何产生的？论文中举了一个生动的例子（Django 框架中的密码验证函数）： · 任务：实现一个 verify_password 函数。 · AI 的做法：代码写得很漂亮，逻辑也对。但是，当遇到无效用户时，AI 为了“效率”直接返回了 False。 · 安全后果：这制造了一个**时间侧信道攻击（Timing Side-Channel）**漏洞。黑客可以通过响应时间的微小差异，判断出一个用户名是否存在于系统中。 · 结论：AI 往往只关注“逻辑正确”，而完全不懂“安全工程”的深层原则（如恒定时间比较）。总结与建议这篇论文是对当前 AI 编程热潮的一记警钟。 · 对于开发者：绝不要盲目信任 AI 生成的代码，尤其是涉及认证、加密、数据解析等敏感模块。"能跑通" $\neq$ "安全"。 · 对于企业：在采用 AI 编程工具（如 Cursor, Claude Code）时，必须强制引入人工安全审查或自动化的安全扫描（SAST/DAST），不能仅依赖单元测试。 · 未来方向：简单的 Prompt 提示无法解决安全问题，我们需要专门针对安全性训练的新一代 Agent。论文原文$

Vibe Coding 真的安全吗？ CMU 这篇论文主要研究的是「基于真实世界任务的 Agent 生成代码漏洞基准测试」，虽然 AI Agent 在代码生成的“功能性”上表现越来越好，但在“安全性”上却令人震惊地脆弱。即便是在功能上完美运行的代码，有超过 80% 都包含严重的安全漏洞。背景：什么是 "Vibe Coding"？为什么它很危险？ “Vibe Coding” 是一种新兴的编程范式：程序员不再逐行编写代码，而是用自然语言给出模糊或高层的指令，让 LLM Agent 去自动完成复杂的编码任务。现状：这种方式极大地提高了效率，75% 的受访者正在使用它。隐患：用户往往只看代码“能不能跑通”（功能性），而很少有能力或意愿去深究代码“是否安全”。论文指出，这种盲目信任正将巨大的安全风险引入生产环境。研究方法：SUSVIBES 基准测试为了验证安全性，团队构建了一个名为 SUSVIBES 的全新基准测试集。真实来源：不同于以往仅测试简单的单文件/单函数，SUSVIBES 从真实世界的开源项目（GitHub）中挖掘了 200 个历史上曾发生过安全漏洞的复杂功能需求。测试流程： · 找到一个被修复过的漏洞（例如：修复了 SQL 注入的某个版本）。 · 将代码回滚到修复前，并让 AI Agent 重新实现这个功能。 · 双重验证：既跑“功能测试”（看功能是否实现），也跑“安全测试”（看是否重现了原来的漏洞）。核心发现：令人不安的“高分低能” 团队测试了当前最顶尖的 Agent 框架（SWE-Agent, OpenHands）和模型（Claude 4 Sonnet, Gemini 2.5 Pro, Kimi K2）。结果非常具有警示意义：功能强但极其不安全： · 表现最好的组合（SWE-Agent + Claude 4 Sonnet）能解决 61% 的任务（功能正确）。 · 但是，在这些功能正确的代码中，只有 10.5% 是安全的。换句话说，超过 80% 的“好代码”实际上含有严重漏洞（如竞态条件、权限绕过、注入攻击等）。模型差异： · Claude 4 Sonnet：功能最强，但生成的漏洞也最多。 · Gemini 2.5 Pro：虽然功能通过率较低（19.5%），但在它能解决的问题里，安全性相对较好（被评为相对“最安全”的模型）。 · Kimi K2：处于中间水平。安全提示（Prompting）无效： · 研究人员尝试告诉 AI：“请注意安全”、“请检查是否有 CWE 漏洞”。 · 结果：不仅安全性没有显著提升，反而导致 AI 过度敏感，连正常的功能都写不对了（功能通过率下降约 6%）。案例分析：漏洞是如何产生的？论文中举了一个生动的例子（Django 框架中的密码验证函数）： · 任务：实现一个 verify_password 函数。 · AI 的做法：代码写得很漂亮，逻辑也对。但是，当遇到无效用户时，AI 为了“效率”直接返回了 False。 · 安全后果：这制造了一个时间侧信道攻击（Timing Side-Channel）漏洞。黑客可以通过响应时间的微小差异，判断出一个用户名是否存在于系统中。 · 结论：AI 往往只关注“逻辑正确”，而完全不懂“安全工程”的深层原则（如恒定时间比较）。总结与建议这篇论文是对当前 AI 编程热潮的一记警钟。 · 对于开发者：绝不要盲目信任 AI 生成的代码，尤其是涉及认证、加密、数据解析等敏感模块。"能跑通" $\neq$ "安全"。 · 对于企业：在采用 AI 编程工具（如 Cursor, Claude Code）时，必须强制引入人工安全审查或自动化的安全扫描（SAST/DAST），不能仅依赖单元测试。 · 未来方向：简单的 Prompt 提示无法解决安全问题，我们需要专门针对安全性训练的新一代 Agent。论文原文

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Sat Dec 06 23:48:34

America is tired of pretending we have much in common with countries that would jail their own citizens for naughty words while letting rapists and criminals run free. We finally have a State Department that will say this. Well done, @UnderSecPD Rogers.

Co-Founder, American Dynamism. General Partner @a16z. Catholic. Mother. American. 🇺🇸 🚀💪

Katherine Boyle

Sat Dec 06 23:47:56

(i choose irrational rather than rational both to match the original quote but also because having a startup that competes with google does seem to require a type of irrational exuberance to be maintained)

third thing founder https://t.co/jZh799yNH4 / personal https://t.co/IdaJwZJCXm

near

Sat Dec 06 23:39:23

Seeing some new interest in how the bitter lesson meets AI engineering. This short talk from last June has the right opinions :-) https://t.co/tp1A8ZukYe

Asst professor @MIT EECS & CSAIL (@nlp_mit). Author of https://t.co/VgyLxl0oa1 and https://t.co/ZZaSzaRaZ7 (@DSPyOSS). Prev: CS PhD @StanfordNLP. Research @Databricks.

Omar Khattab

Sat Dec 06 23:39:11

RT @markgurman: In another new development, Apple senior displays executive - in charge of optics in the Vision Pro and other screen techno…