LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Day 1:

Starting today. It feels like it’s 6 pm already, but I have the whole day ahead. Nice!

Day 1: Starting today. It feels like it’s 6 pm already, but I have the whole day ahead. Nice!

🧑‍💻 https://t.co/Y30jsaHwz9 $20K/m ⚡️ https://t.co/vatLDmi9UG $17K/m 📈 https://t.co/3EDxln5mdi $16K/m ⭐️ https://t.co/MZc8tG9xWi $8K/m 🧬 https://t.co/SfrVXVtmdA $.5K/m 🍜 https://t.co/r07EpGSYJ2 $0K/m 🧾 https://t.co/7olaOzV8Xd $0/m +18 https://t.co/4zCWHGJp1S

avatar for Marc Lou
Marc Lou
Thu Nov 13 06:00:20
For the next 30 days I’ll run 5km as soon as I wake up. 

1. Because I spend the rest of the day sitting 
2. Because I want to test my discipline 
3. Because stepping out of comfort zone is how I learn stuff

For the next 30 days I’ll run 5km as soon as I wake up. 1. Because I spend the rest of the day sitting 2. Because I want to test my discipline 3. Because stepping out of comfort zone is how I learn stuff

Day 1: Starting today. It feels like it’s 6 pm already, but I have the whole day ahead. Nice!

avatar for Marc Lou
Marc Lou
Thu Nov 13 06:00:16
I swear to god you can't do anything fun on the internet anymore.

I created a website for *funsies* and it got attacked by a bot farm.

And ruined my night.

I'm jaded at this point but...

I no longer get joy from building "free stuff" online anymore.

And I don't get satisfaction from "lots of users".

Charge for your hard work!

I swear to god you can't do anything fun on the internet anymore. I created a website for *funsies* and it got attacked by a bot farm. And ruined my night. I'm jaded at this point but... I no longer get joy from building "free stuff" online anymore. And I don't get satisfaction from "lots of users". Charge for your hard work!

https://t.co/zSf5Z2H78P https://t.co/ryMAyS77qn https://t.co/Gm6gdHaLgp On a mission to inspire 1B people to build stuff!

avatar for Pat Walls
Pat Walls
Thu Nov 13 05:57:51
2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿?

我也好奇这个问题,这篇文章倒是给了我部分答案。

Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。

还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。

猜猜结果如何?

各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。

模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。

这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。
(参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。

第一级:基本功 (工具使用 + 规划)

这是金字塔的底座。你总得会用公司的系统,能看懂任务吧?

比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。

这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。

第二级:适应性(Adaptability) (计划赶不上变化)

OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办?

比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。"

但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗?

这就是适应性。计划 A 失败了,你得有 Plan B。

第三级:抓地力(Groundedness) (别胡编乱造)

Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。

这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。

比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。

更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。

这就叫"抓地力"了。这种 AI Agent 你敢用吗?

第四级:常识推理 (真正的"智能")

这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。

这已经不是"会不会用工具"的问题了,而是"够不够聪明"。

文章举了几个 GPT-5 失败的例子,都特别经典:

1. 客户说:"我想退款,包裹刚到几小时。" 人类客服秒懂:这是"退货" (Return)。 GPT-5 拿到了所有信息,但它没把"包裹到了"和"退款"这两个点联系起来,搞不懂这到底是"退货"还是"取消订单" (Cancellation)。

2. 任务是"找出八月份的'游戏玩家'客户"。 聪明的做法是:搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是:一天一天地搜,从 8 月 1 号搜到 8 月 31 号。 它花了 31 次搜索,硬是"穷举"出来了。 这说明它能执行,但它... 不太"机灵"。

3. 客户说:"我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。 但其实,客户的意思是:"我就是 Sarah Kim,快用这个名字查我的会员折扣!" GPT-5 没能理解这个"弦外之音"。

所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。

而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。

就像图2 那样,“常识”这一层,还有得爬呢!

建议阅读原文:

2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿? 我也好奇这个问题,这篇文章倒是给了我部分答案。 Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。 还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。 猜猜结果如何? 各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。 模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。 这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。 (参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。 第一级:基本功 (工具使用 + 规划) 这是金字塔的底座。你总得会用公司的系统,能看懂任务吧? 比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。 这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。 第二级:适应性(Adaptability) (计划赶不上变化) OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办? 比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。" 但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗? 这就是适应性。计划 A 失败了,你得有 Plan B。 第三级:抓地力(Groundedness) (别胡编乱造) Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。 这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。 比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。 更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。 这就叫"抓地力"了。这种 AI Agent 你敢用吗? 第四级:常识推理 (真正的"智能") 这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。 这已经不是"会不会用工具"的问题了,而是"够不够聪明"。 文章举了几个 GPT-5 失败的例子,都特别经典: 1. 客户说:"我想退款,包裹刚到几小时。" 人类客服秒懂:这是"退货" (Return)。 GPT-5 拿到了所有信息,但它没把"包裹到了"和"退款"这两个点联系起来,搞不懂这到底是"退货"还是"取消订单" (Cancellation)。 2. 任务是"找出八月份的'游戏玩家'客户"。 聪明的做法是:搜索"GPU"分类 + 搜索描述里带"gaming"的产品。 GPT-5 的做法是:一天一天地搜,从 8 月 1 号搜到 8 月 31 号。 它花了 31 次搜索,硬是"穷举"出来了。 这说明它能执行,但它... 不太"机灵"。 3. 客户说:"我的账户名应该是 Sarah Kim。" GPT-5 以为这是个"修改账户名"的指令。 但其实,客户的意思是:"我就是 Sarah Kim,快用这个名字查我的会员折扣!" GPT-5 没能理解这个"弦外之音"。 所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。 而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。 就像图2 那样,“常识”这一层,还有得爬呢! 建议阅读原文:

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Nov 13 05:46:01
RT @mipsytipsy: So, we lost the battle to define observability. You know it, I know it. Observability was supposed to *mean* something, and…

RT @mipsytipsy: So, we lost the battle to define observability. You know it, I know it. Observability was supposed to *mean* something, and…

gpu enjoyer at @modal. he/him. ex @full_stack_dl, @weights_biases (acq. @CoreWeave), phd Berkeley @Redwood_Neuro. try https://t.co/SYWVMCazZ3

avatar for Charles 🎉 Frye
Charles 🎉 Frye
Thu Nov 13 05:45:50
RT @jameygannon: hot girls have started using AI 

trend i’m seeing; photo-surrealism with cute animals

RT @jameygannon: hot girls have started using AI trend i’m seeing; photo-surrealism with cute animals

🇪🇺https://t.co/NdorAWqJC3 📸https://t.co/lAyoqmSBRX $125K/m 🏡https://t.co/1oqUgfD6CZ $40K/m 🛰https://t.co/ZHSvI2wjyW $38K/m 🌍https://t.co/UXK5AFqCaQ $16K/m 👙https://t.co/RyXpqGuFM3 $14K/m 💾https://t.co/M1hEUBAynC $6K/m

avatar for @levelsio
@levelsio
Thu Nov 13 05:40:51
  • Previous
  • 1
  • More pages
  • 8
  • 9
  • 10
  • More pages
  • 2127
  • Next