탐색 | Thread Easy - 트위터 스레드 펼치기 | 리더, 요약, 작성

RT @aigclink: Gemini Live大更新，谷歌刚刚给Gemini Live加了“人声特效包”，像真人一样表达带节奏、带口音，交互更自然新版模型能实时识别并控制语速、韵律与口音可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音 h…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Thu Nov 13 07:50:34

2025 年是公认的智能体元年，眼看着 2025 年都快要结束了，那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿？我也好奇这个问题，这篇文章倒是给了我部分答案。 Surge AI 做了个有趣的测试：他们"雇"了 9 个 AI 模型，包括最新的 GPT-5 和 Claude Sonnet 4.5，让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服，处理 150 个真实任务。还挺合理的，客服确实是写代码之外最普遍的 Agent 落地场景了。猜猜结果如何？各个模型的能力排行上，跟我预期差不多，最强的是 GPT-5 和 Claude Sonnet 4.5（不知道 Claude Opus 4.1 会不会好一点）。模型能力上，比我预期的还好一点点，最强的 GPT-5 和 Claude Sonnet 4.5，有超过 40% 的智能体任务失败了，反过来说成功率有 50% 多了。这篇文章有价值的地方不仅仅是他们做了测试和打分，而且提出了一个相对比较科学的框架，叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。（参考图1，还标注了当前这些模型大概处在金字塔的什么位置）。第一级：基本功 (工具使用 + 规划) 这是金字塔的底座。你总得会用公司的系统，能看懂任务吧？比如，任务是"查找 SkyForge X670E Pro 这个主板的订单"。弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名，塞进"product_id" (产品ID) 的搜索框里。这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。第二级：适应性(Adaptability) (计划赶不上变化) OK，你现在会用工具了。但如果系统跟你"耍脾气"，你该怎么办？比如，任务是查"Vortex Labs"这个牌子的显卡。中等模型 (像 Gemini 2.5) 搜了，返回 0 个结果。它们就直接跟客户说："抱歉，我们不卖这个。" 但 Claude 4.5 就聪明一点。它会想："咦，是不是系统里没空格？" 于是它试着搜 "VortexLabs" (没空格)，哎，这不就搜到了吗？这就是适应性。计划 A 失败了，你得有 Plan B。第三级：抓地力(Groundedness) (别胡编乱造) Groundedness 这个词很妙，意思就是“你还记不记得上下文？”“你有没有产生幻觉？” AI在多步骤任务里，特别容易产生幻觉。这层要求你"活在当下"，别瞎编，别忘了你是谁，你在哪。比如，系统提示里写着"今天是 2025 年"。有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。更夸张的是 Claude，它在查客户时，自己"编"了一个根本不存在的 email 地址拿去搜。这就叫"抓地力"了。这种 AI Agent 你敢用吗？第四级：常识推理 (真正的"智能") 这是金字塔的塔尖，也是 GPT-5 这次栽跟头的地方。这已经不是"会不会用工具"的问题了，而是"够不够聪明"。文章举了几个 GPT-5 失败的例子，都特别经典： 1. 客户说："我想退款，包裹刚到几小时。" 人类客服秒懂：这是"退货" (Return)。 GPT-5 拿到了所有信息，但它没把"包裹到了"和"退款"这两个点联系起来，搞不懂这到底是"退货"还是"取消订单" (Cancellation)。 2. 任务是"找出八月份的'游戏玩家'客户"。聪明的做法是：搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是：一天一天地搜，从 8 月 1 号搜到 8 月 31 号。它花了 31 次搜索，硬是"穷举"出来了。这说明它能执行，但它... 不太"机灵"。 3. 客户说："我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。但其实，客户的意思是："我就是 Sarah Kim，快用这个名字查我的会员折扣！" GPT-5 没能理解这个"弦外之音"。所以，回到最初的问题。 2025年是“Agent 元年”，不是说我们已经有了能干活的通用 Agent。而是我们终于有了能通过前三层"足够好"的 AI，好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。就像图2 那样，“常识”这一层，还有得爬呢！建议阅读原文：

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Thu Nov 13 05:46:01

实战案例：用 SOLO Coder 打造一个“网页转 Markdown”浏览器插件除了做网站，我日常写的小工具就是浏览器插件。这几天我尝试用 TRAE SOLO 模式写了一个把网页内容抓取成 Markdown 的小插件，就很方便。我在使用 TRAE 这种 Coding Agent 写浏览器插件时也积累了一些经验技巧： - 使用框架：最好使用 wxt 这样专门为浏览器插件打造的框架，可以节约很多从头搭建的时间。 - 从 Example 开始：不要直接让 Agent 从头创建，因为 Agent 的训练时间相对比较早，很多库更新又很频繁。这个 WXT + React + Tailwind + Shadcn 的项目就很合适：https://t.co/RF9Q0SAZlH - 先 Plan 后执行：我习惯了先让SOLO帮我计划再执行，不要着急让 Agent 直接动手写代码。 - 人工反馈：因为像浏览器插件 Agent 不能直接帮你访问调试，所以需要你自己测试，并且把错误结果粘贴给 Agent。这是我当初实现时用到的提示词，有兴趣你也可以试试： --- 提示词开始 --- 请帮我实现一个浏览器插件，点开后，可以抓取当前网页的：标题、链接、网页内容为Markdown，参考截图（注：配图2）。 - 最大尺寸400x600 - TItle 最多显示一行（超长的显示省略号） - Properties 内的 Meta 信息最多显示为1行（超长的显示省略号） - 显示网页内容Markdown部分撑满剩余空间，内容太长可以滚动 - 下面有个复制按钮，点击后可以复制为完整Markdown内容（title+content+source url) - 注意确保插件有正确的网页访问权限，能访问到网页内容技术栈： - wxt：插件框架 - Tailwindcss + shadcn ui: UI - 请直接下载这个示例项目（https://t.co/RF9Q0SAZlH）开始，注意是 wxt-dev/examples/tree/main/examples/react-shadcn 这个目录下的完整内容，不需要其他无关内容 --- 提示词结束 --- 有了 SOLO 正式版之后，我把这个提示词用 SOLO Coder 重新做了一遍，遇到的错误明显少了，生成速度也快了一些。打开 Plan 模式后，它会先制定计划，最好人工 Review 一下计划有没有问题，没问题再开始执行。第一次可能会失败，把结果发回去让它修复。大概需要反复迭代几次，就可以得到结果了。如果完成后你不知道怎么用，还可以问 Agent 该怎么发布、使用，或者干脆让它写成文档。这个用 TRAE SOLO 模式打造的小项目已经发布到了 GitHub：

最后：我的几点看法 SOLO 模式整体用下来，对于不太习惯用 cli 模式的来说，应该会方便很多： - 可以方便的输入和编辑提示词、粘贴图片。 - 可以随时用鼠标停止、切换模式。 - DiffView 可以方便看代码更新，Browser 可以实时看到网页效果。对于习惯了用 cli 模式的，这些优点倒没有那么明显，但能和浏览器联动对于做网页应用来说还是方便很多。最后聊聊计费，TRAE 在 Token 用量上还挺慷慨的。近期 SOLO 改成了采用基于 Token 消耗的计费方式，折算为快速问答次数（Fast Request）从会员套餐中扣减。每轮对话结束后，IDE 内对话框底部和 TRAE 官网的 Usage 页面将清晰展示本次消耗详情。推荐大家去试试，尤其是可以试试我上面提到的 SubAgent 的用法，或者参考我上面分享的提示词，自己写一个浏览器插件试试。 TRAE国际版官网：https://t.co/rF5s0uF53p https://t.co/wQXKquMgqg

宝玉

Thu Nov 13 05:13:15

最后：我的几点看法 SOLO 模式整体用下来，对于不太习惯用 cli 模式的来说，应该会方便很多： - 可以方便的输入和编辑提示词、粘贴图片。 - 可以随时用鼠标停止、切换模式。 - DiffView 可以方便看代码更新，Browser 可以实时看到网页效果。对于习惯了用 cli 模式的，这些优点倒没有那么明显，但能和浏览器联动对于做网页应用来说还是方便很多。最后聊聊计费，TRAE 在 Token 用量上还挺慷慨的。近期 SOLO 改成了采用基于 Token 消耗的计费方式，折算为快速问答次数（Fast Request）从会员套餐中扣减。每轮对话结束后，IDE 内对话框底部和 TRAE 官网的 Usage 页面将清晰展示本次消耗详情。推荐大家去试试，尤其是可以试试我上面提到的 SubAgent 的用法，或者参考我上面分享的提示词，自己写一个浏览器插件试试。 TRAE国际版官网：https://t.co/rF5s0uF53p https://t.co/wQXKquMgqg

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Thu Nov 13 05:13:15

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码) 内容摘要：TRAE SOLO 模式评测，内含两个有价值的经验分享： 1. 如何借助 SubAgent 控制 MCP 工具上下文； 2. 在 TRAE SOLO 模式下一次性完成一个抓取网页内容生成 Markdown 的浏览器插件的提示词正文：🧵

过去一段时间，很多人在找 TRAE SOLO 模式的邀请码。现在 SOLO 正式版已经面向TRAE国际版所有用户全量上线了，SOLO Code和Waitlist都成为了历史。早在内测期间，我就有深入体验过 TRAE 的 SOLO 模式，这两天又重新测试了一下新的 SOLO Coder，在模型能力上明显有了大幅提升，这两天还在限免，推荐没有用过的朋友去试用一下。什么是 TRAE 的 SOLO 模式？简单来说，你可以理解为 Claude Code / Codex CLI 的代码编辑器版本。它不再是黑乎乎的命令行窗口，而是友好的 App 界面。你可以方便地输入和修改提示词、粘贴图片、配置 MCP 工具（各种外部能力），并且可以在 Agent 执行时实时看到代码变更、实时预览结果，随时可以终止并输入新的提示词。按照官方的话说是：「SOLO 正式版的核心定位是「The Resoponsive Coding Agent」（响应式编码特工），在高度自动化的同时能做到实时有感知（Responsive Review）、随时可掌握（Responsive Context）、多任务并行（Responsive Multi-Agent）。」 SOLO 正式版瞄准的是从 1 到 100 的复杂任务，比如一个单独的开源项目，或者根据已有项目做 1-100 的重构和迭代。功能亮点聊功能更新之前，我先分享两个在内测和新版使用中，我觉得最有价值的两个亮点。真正打通“行动 ➔ 验证”的闭环这是我最看重的一点。很多 AI Agent 只会“收集上下文 -> 采取行动”，但它并不知道自己干得好不好。比如说，你只让 AI 写一段代码，这段代码可能是对的也可能是错的。但如果你给 AI 几条测试数据，告诉它写完代码用这几条数据验证一下，AI 就能根据错误信息去修复，直到通过所有验证。对于 Agent 来说，打通收集上下文 -> 采取行动 -> 验证结果的循环非常重要。 SOLO 模式就在尝试打通这个循环。比如我在使用 Codex 时，一个在浏览器测试遇到的错误，需要反复复制粘贴回 Agent。而 SOLO 模式内置一个浏览器，可以实时“看到”网页运行情况，这样它就能根据网页错误信息，自行修正代码，直到解决问题，不需要太多人工干预。

宝玉

Thu Nov 13 05:13:12

RT @nopinduoduo: 作为ADHD型转码选手如果没有AI,没有最后幸运的去实习了，我可能永远也学不会编程了。 1.依赖自驱的学习，离不开正反馈和学习循环。正反馈，那些让你爽的点，比如写个“Hello world",写个小脚本等等...…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Thu Nov 13 03:36:25

탐색

Newest first — browse tweet threads

탐색

Newest first — browse tweet threads

RT @aigclink: Gemini Live大更新，谷歌刚刚给Gemini Live加了“人声特效包”，像真人一样表达带节奏、带口音，交互更自然新版模型能实时识别并控制语速、韵律与口音可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音 h…

RT @nopinduoduo: 作为ADHD型转码选手如果没有AI,没有最后幸运的去实习了，我可能永远也学不会编程了。 1.依赖自驱的学习，离不开正反馈和学习循环。正反馈，那些让你爽的点，比如写个“Hello world",写个小脚本等等...…

탐색

Newest first — browse tweet threads

탐색

Newest first — browse tweet threads

RT @aigclink: Gemini Live大更新，谷歌刚刚给Gemini Live加了“人声特效包”，像真人一样表达带节奏、带口音，交互更自然 新版模型能实时识别并控制语速、韵律与口音 可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音 h…

RT @nopinduoduo: 作为ADHD型转码选手 如果没有AI,没有最后幸运的去实习了，我可能永远也学不会编程了。 1.依赖自驱的学习，离不开正反馈和学习循环。 正反馈，那些让你爽的点，比如写个“Hello world",写个小脚本等等...…

RT @aigclink: Gemini Live大更新，谷歌刚刚给Gemini Live加了“人声特效包”，像真人一样表达带节奏、带口音，交互更自然新版模型能实时识别并控制语速、韵律与口音可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音 h…

RT @nopinduoduo: 作为ADHD型转码选手如果没有AI,没有最后幸运的去实习了，我可能永远也学不会编程了。 1.依赖自驱的学习，离不开正反馈和学习循环。正反馈，那些让你爽的点，比如写个“Hello world",写个小脚本等等...…