LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @aigclink: Gemini Live大更新,谷歌刚刚给Gemini Live加了“人声特效包”,像真人一样表达带节奏、带口音,交互更自然

新版模型能实时识别并控制语速、韵律与口音

可以用它陪练外语、模拟面试、讲带感故事

#GeminiLive #AI语音 h…

RT @aigclink: Gemini Live大更新,谷歌刚刚给Gemini Live加了“人声特效包”,像真人一样表达带节奏、带口音,交互更自然 新版模型能实时识别并控制语速、韵律与口音 可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音 h…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Nov 13 07:50:34
2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿?

我也好奇这个问题,这篇文章倒是给了我部分答案。

Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。

还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。

猜猜结果如何?

各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。

模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。

这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。
(参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。

第一级:基本功 (工具使用 + 规划)

这是金字塔的底座。你总得会用公司的系统,能看懂任务吧?

比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。

这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。

第二级:适应性(Adaptability) (计划赶不上变化)

OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办?

比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。"

但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗?

这就是适应性。计划 A 失败了,你得有 Plan B。

第三级:抓地力(Groundedness) (别胡编乱造)

Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。

这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。

比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。

更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。

这就叫"抓地力"了。这种 AI Agent 你敢用吗?

第四级:常识推理 (真正的"智能")

这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。

这已经不是"会不会用工具"的问题了,而是"够不够聪明"。

文章举了几个 GPT-5 失败的例子,都特别经典:

1. 客户说:"我想退款,包裹刚到几小时。" 人类客服秒懂:这是"退货" (Return)。 GPT-5 拿到了所有信息,但它没把"包裹到了"和"退款"这两个点联系起来,搞不懂这到底是"退货"还是"取消订单" (Cancellation)。

2. 任务是"找出八月份的'游戏玩家'客户"。 聪明的做法是:搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是:一天一天地搜,从 8 月 1 号搜到 8 月 31 号。 它花了 31 次搜索,硬是"穷举"出来了。 这说明它能执行,但它... 不太"机灵"。

3. 客户说:"我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。 但其实,客户的意思是:"我就是 Sarah Kim,快用这个名字查我的会员折扣!" GPT-5 没能理解这个"弦外之音"。

所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。

而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。

就像图2 那样,“常识”这一层,还有得爬呢!

建议阅读原文:

2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿? 我也好奇这个问题,这篇文章倒是给了我部分答案。 Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。 还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。 猜猜结果如何? 各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。 模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。 这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。 (参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。 第一级:基本功 (工具使用 + 规划) 这是金字塔的底座。你总得会用公司的系统,能看懂任务吧? 比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。 这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。 第二级:适应性(Adaptability) (计划赶不上变化) OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办? 比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。" 但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗? 这就是适应性。计划 A 失败了,你得有 Plan B。 第三级:抓地力(Groundedness) (别胡编乱造) Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。 这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。 比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。 更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。 这就叫"抓地力"了。这种 AI Agent 你敢用吗? 第四级:常识推理 (真正的"智能") 这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。 这已经不是"会不会用工具"的问题了,而是"够不够聪明"。 文章举了几个 GPT-5 失败的例子,都特别经典: 1. 客户说:"我想退款,包裹刚到几小时。" 人类客服秒懂:这是"退货" (Return)。 GPT-5 拿到了所有信息,但它没把"包裹到了"和"退款"这两个点联系起来,搞不懂这到底是"退货"还是"取消订单" (Cancellation)。 2. 任务是"找出八月份的'游戏玩家'客户"。 聪明的做法是:搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是:一天一天地搜,从 8 月 1 号搜到 8 月 31 号。 它花了 31 次搜索,硬是"穷举"出来了。 这说明它能执行,但它... 不太"机灵"。 3. 客户说:"我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。 但其实,客户的意思是:"我就是 Sarah Kim,快用这个名字查我的会员折扣!" GPT-5 没能理解这个"弦外之音"。 所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。 而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。 就像图2 那样,“常识”这一层,还有得爬呢! 建议阅读原文:

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Nov 13 05:46:01
实战案例:用 SOLO Coder 打造一个“网页转 Markdown”浏览器插件

除了做网站,我日常写的小工具就是浏览器插件。这几天我尝试用 TRAE SOLO 模式写了一个把网页内容抓取成 Markdown 的小插件,就很方便。

我在使用 TRAE 这种 Coding Agent 写浏览器插件时也积累了一些经验技巧:
- 使用框架: 最好使用 wxt 这样专门为浏览器插件打造的框架,可以节约很多从头搭建的时间。
- 从 Example 开始: 不要直接让 Agent 从头创建,因为 Agent 的训练时间相对比较早,很多库更新又很频繁。这个 WXT + React + Tailwind + Shadcn 的项目就很合适:https://t.co/RF9Q0SAZlH
- 先 Plan 后执行: 我习惯了先让SOLO帮我计划再执行,不要着急让 Agent 直接动手写代码。
- 人工反馈: 因为像浏览器插件 Agent 不能直接帮你访问调试,所以需要你自己测试,并且把错误结果粘贴给 Agent。

这是我当初实现时用到的提示词,有兴趣你也可以试试:

--- 提示词开始 ---

请帮我实现一个浏览器插件,点开后,可以抓取当前网页的:标题、链接、网页内容为Markdown,参考截图(注:配图2)。

- 最大尺寸400x600
- TItle 最多显示一行(超长的显示省略号)
- Properties 内的 Meta 信息最多显示为1行(超长的显示省略号)
- 显示网页内容Markdown部分撑满剩余空间,内容太长可以滚动
- 下面有个复制按钮,点击后可以复制为完整Markdown内容(title+content+source url)
- 注意确保插件有正确的网页访问权限,能访问到网页内容

技术栈:
- wxt:插件框架
- Tailwindcss + shadcn ui: UI
- 请直接下载这个示例项目 (https://t.co/RF9Q0SAZlH) 开始,注意是 wxt-dev/examples/tree/main/examples/react-shadcn 这个目录下的完整内容,不需要其他无关内容

--- 提示词结束 ---

有了 SOLO 正式版之后,我把这个提示词用 SOLO Coder 重新做了一遍,遇到的错误明显少了,生成速度也快了一些。

打开 Plan 模式后,它会先制定计划,最好人工 Review 一下计划有没有问题,没问题再开始执行。

第一次可能会失败,把结果发回去让它修复。大概需要反复迭代几次,就可以得到结果了。

如果完成后你不知道怎么用,还可以问 Agent 该怎么发布、使用,或者干脆让它写成文档。

这个用 TRAE SOLO 模式打造的小项目已经发布到了 GitHub:

实战案例:用 SOLO Coder 打造一个“网页转 Markdown”浏览器插件 除了做网站,我日常写的小工具就是浏览器插件。这几天我尝试用 TRAE SOLO 模式写了一个把网页内容抓取成 Markdown 的小插件,就很方便。 我在使用 TRAE 这种 Coding Agent 写浏览器插件时也积累了一些经验技巧: - 使用框架: 最好使用 wxt 这样专门为浏览器插件打造的框架,可以节约很多从头搭建的时间。 - 从 Example 开始: 不要直接让 Agent 从头创建,因为 Agent 的训练时间相对比较早,很多库更新又很频繁。这个 WXT + React + Tailwind + Shadcn 的项目就很合适:https://t.co/RF9Q0SAZlH - 先 Plan 后执行: 我习惯了先让SOLO帮我计划再执行,不要着急让 Agent 直接动手写代码。 - 人工反馈: 因为像浏览器插件 Agent 不能直接帮你访问调试,所以需要你自己测试,并且把错误结果粘贴给 Agent。 这是我当初实现时用到的提示词,有兴趣你也可以试试: --- 提示词开始 --- 请帮我实现一个浏览器插件,点开后,可以抓取当前网页的:标题、链接、网页内容为Markdown,参考截图(注:配图2)。 - 最大尺寸400x600 - TItle 最多显示一行(超长的显示省略号) - Properties 内的 Meta 信息最多显示为1行(超长的显示省略号) - 显示网页内容Markdown部分撑满剩余空间,内容太长可以滚动 - 下面有个复制按钮,点击后可以复制为完整Markdown内容(title+content+source url) - 注意确保插件有正确的网页访问权限,能访问到网页内容 技术栈: - wxt:插件框架 - Tailwindcss + shadcn ui: UI - 请直接下载这个示例项目 (https://t.co/RF9Q0SAZlH) 开始,注意是 wxt-dev/examples/tree/main/examples/react-shadcn 这个目录下的完整内容,不需要其他无关内容 --- 提示词结束 --- 有了 SOLO 正式版之后,我把这个提示词用 SOLO Coder 重新做了一遍,遇到的错误明显少了,生成速度也快了一些。 打开 Plan 模式后,它会先制定计划,最好人工 Review 一下计划有没有问题,没问题再开始执行。 第一次可能会失败,把结果发回去让它修复。大概需要反复迭代几次,就可以得到结果了。 如果完成后你不知道怎么用,还可以问 Agent 该怎么发布、使用,或者干脆让它写成文档。 这个用 TRAE SOLO 模式打造的小项目已经发布到了 GitHub:

最后:我的几点看法 SOLO 模式整体用下来,对于不太习惯用 cli 模式的来说,应该会方便很多: - 可以方便的输入和编辑提示词、粘贴图片。 - 可以随时用鼠标停止、切换模式。 - DiffView 可以方便看代码更新,Browser 可以实时看到网页效果。 对于习惯了用 cli 模式的,这些优点倒没有那么明显,但能和浏览器联动对于做网页应用来说还是方便很多。 最后聊聊计费,TRAE 在 Token 用量上还挺慷慨的。近期 SOLO 改成了采用基于 Token 消耗的计费方式,折算为快速问答次数(Fast Request)从会员套餐中扣减。每轮对话结束后,IDE 内对话框底部和 TRAE 官网的 Usage 页面将清晰展示本次消耗详情。 推荐大家去试试,尤其是可以试试我上面提到的 SubAgent 的用法,或者参考我上面分享的提示词,自己写一个浏览器插件试试。 TRAE国际版官网:https://t.co/rF5s0uF53p https://t.co/wQXKquMgqg

avatar for 宝玉
宝玉
Thu Nov 13 05:13:15
最后:我的几点看法

SOLO 模式整体用下来,对于不太习惯用 cli 模式的来说,应该会方便很多:
- 可以方便的输入和编辑提示词、粘贴图片。
- 可以随时用鼠标停止、切换模式。
- DiffView 可以方便看代码更新,Browser 可以实时看到网页效果。

对于习惯了用 cli 模式的,这些优点倒没有那么明显,但能和浏览器联动对于做网页应用来说还是方便很多。

最后聊聊计费,TRAE 在 Token 用量上还挺慷慨的。近期 SOLO 改成了采用基于 Token 消耗的计费方式,折算为快速问答次数(Fast Request)从会员套餐中扣减。每轮对话结束后,IDE 内对话框底部和 TRAE 官网的 Usage 页面将清晰展示本次消耗详情。

推荐大家去试试,尤其是可以试试我上面提到的 SubAgent 的用法,或者参考我上面分享的提示词,自己写一个浏览器插件试试。

TRAE国际版官网:https://t.co/rF5s0uF53p https://t.co/wQXKquMgqg

最后:我的几点看法 SOLO 模式整体用下来,对于不太习惯用 cli 模式的来说,应该会方便很多: - 可以方便的输入和编辑提示词、粘贴图片。 - 可以随时用鼠标停止、切换模式。 - DiffView 可以方便看代码更新,Browser 可以实时看到网页效果。 对于习惯了用 cli 模式的,这些优点倒没有那么明显,但能和浏览器联动对于做网页应用来说还是方便很多。 最后聊聊计费,TRAE 在 Token 用量上还挺慷慨的。近期 SOLO 改成了采用基于 Token 消耗的计费方式,折算为快速问答次数(Fast Request)从会员套餐中扣减。每轮对话结束后,IDE 内对话框底部和 TRAE 官网的 Usage 页面将清晰展示本次消耗详情。 推荐大家去试试,尤其是可以试试我上面提到的 SubAgent 的用法,或者参考我上面分享的提示词,自己写一个浏览器插件试试。 TRAE国际版官网:https://t.co/rF5s0uF53p https://t.co/wQXKquMgqg

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Nov 13 05:13:15
深度体验TRAE SOLO 正式版,总结一点技巧(附完整可重现提示词和源码)

内容摘要:TRAE SOLO 模式评测,内含两个有价值的经验分享:
1. 如何借助 SubAgent 控制 MCP 工具上下文;
2. 在 TRAE SOLO 模式下一次性完成一个抓取网页内容生成 Markdown 的浏览器插件的提示词

正文:🧵

深度体验TRAE SOLO 正式版,总结一点技巧(附完整可重现提示词和源码) 内容摘要:TRAE SOLO 模式评测,内含两个有价值的经验分享: 1. 如何借助 SubAgent 控制 MCP 工具上下文; 2. 在 TRAE SOLO 模式下一次性完成一个抓取网页内容生成 Markdown 的浏览器插件的提示词 正文:🧵

过去一段时间,很多人在找 TRAE SOLO 模式的邀请码。现在 SOLO 正式版已经面向TRAE国际版所有用户全量上线了,SOLO Code和Waitlist都成为了历史。 早在内测期间,我就有深入体验过 TRAE 的 SOLO 模式,这两天又重新测试了一下新的 SOLO Coder,在模型能力上明显有了大幅提升,这两天还在限免,推荐没有用过的朋友去试用一下。 什么是 TRAE 的 SOLO 模式? 简单来说,你可以理解为 Claude Code / Codex CLI 的代码编辑器版本。 它不再是黑乎乎的命令行窗口,而是友好的 App 界面。你可以方便地输入和修改提示词、粘贴图片、配置 MCP 工具(各种外部能力),并且可以在 Agent 执行时实时看到代码变更、实时预览结果,随时可以终止并输入新的提示词。 按照官方的话说是: 「SOLO 正式版的核心定位是「The Resoponsive Coding Agent」(响应式编码特工),在高度自动化的同时能做到实时有感知(Responsive Review)、随时可掌握(Responsive Context)、多任务并行(Responsive Multi-Agent)。」 SOLO 正式版瞄准的是从 1 到 100 的复杂任务,比如一个单独的开源项目,或者根据已有项目做 1-100 的重构和迭代。 功能亮点 聊功能更新之前,我先分享两个在内测和新版使用中,我觉得最有价值的两个亮点。 真正打通“行动 ➔ 验证”的闭环 这是我最看重的一点。很多 AI Agent 只会“收集上下文 -> 采取行动”,但它并不知道自己干得好不好。 比如说,你只让 AI 写一段代码,这段代码可能是对的也可能是错的。 但如果你给 AI 几条测试数据,告诉它写完代码用这几条数据验证一下,AI 就能根据错误信息去修复,直到通过所有验证。 对于 Agent 来说,打通 收集上下文 -> 采取行动 -> 验证结果 的循环非常重要。 SOLO 模式就在尝试打通这个循环。比如我在使用 Codex 时,一个在浏览器测试遇到的错误,需要反复复制粘贴回 Agent。而 SOLO 模式内置一个浏览器,可以实时“看到”网页运行情况,这样它就能根据网页错误信息,自行修正代码,直到解决问题,不需要太多人工干预。

avatar for 宝玉
宝玉
Thu Nov 13 05:13:12
RT @nopinduoduo: 作为ADHD型转码选手

如果没有AI,没有最后幸运的去实习了,我可能永远也学不会编程了。

1.依赖自驱的学习,离不开正反馈和学习循环。

正反馈,那些让你爽的点,比如写个“Hello world",写个小脚本等等...…

RT @nopinduoduo: 作为ADHD型转码选手 如果没有AI,没有最后幸运的去实习了,我可能永远也学不会编程了。 1.依赖自驱的学习,离不开正反馈和学习循环。 正反馈,那些让你爽的点,比如写个“Hello world",写个小脚本等等...…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Nov 13 03:36:25
  • Previous
  • 1
  • 2
  • 3
  • More pages
  • 36
  • 37
  • Next