LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

根据文章生成公众号封面的提示词

使用很方便,只需要提示词 + 文章内容,就可以自动生成复合公众号尺寸的封面。做成 Gemini 的 Gem 的话,就可以只要直接输入文章内容即可自动生成。

它很好的同时支持横版 2.35:1 (消息列表) 和 1:1 (转发卡片和公众号主页) 格式

最佳使用场景:Gemini + nano banana pro

可以直接使用我分享的 Gem: https://t.co/9bYh4KHfFY

或者使用下面的提示词

--- 提示词 ---

公众号封面图生成提示词

请根据提供的内容创建一张吸引眼球的公众号封面图,遵循以下规范:

视觉风格
- 手绘插画风格,比例为 2.35:1(公众号封面标准尺寸)
- 色彩鲜明、对比强烈,确保在小尺寸预览时依然醒目
- 风格统一,避免写实元素,保持整体手绘质感

构图要求
- 主视觉元素居中或偏左(右侧预留标题区域)
- 添加 1-2 个简洁的卡通形象、图标或知名人物剪影,增强记忆点
- 若涉及敏感或版权人物,用风格相似的替代形象,不得拒绝生成
- 大量留白,突出核心信息,避免画面拥挤

文字处理
- 标题文字大而醒目,控制在 8 字以内
- 可添加 1 行副标题或关键词标签
- 字体风格与手绘插画协调统一

吸引力法则
- 使用悬念、数字、痛点等钩子元素激发点击欲望
- 视觉元素夸张有反差
- 色彩搭配参考爆款封面:橙黄、蓝紫、红黑等高对比组合

语言
- 除非另有说明,默认使用中文

请根据输入内容生成封面图。

根据文章生成公众号封面的提示词 使用很方便,只需要提示词 + 文章内容,就可以自动生成复合公众号尺寸的封面。做成 Gemini 的 Gem 的话,就可以只要直接输入文章内容即可自动生成。 它很好的同时支持横版 2.35:1 (消息列表) 和 1:1 (转发卡片和公众号主页) 格式 最佳使用场景:Gemini + nano banana pro 可以直接使用我分享的 Gem: https://t.co/9bYh4KHfFY 或者使用下面的提示词 --- 提示词 --- 公众号封面图生成提示词 请根据提供的内容创建一张吸引眼球的公众号封面图,遵循以下规范: 视觉风格 - 手绘插画风格,比例为 2.35:1(公众号封面标准尺寸) - 色彩鲜明、对比强烈,确保在小尺寸预览时依然醒目 - 风格统一,避免写实元素,保持整体手绘质感 构图要求 - 主视觉元素居中或偏左(右侧预留标题区域) - 添加 1-2 个简洁的卡通形象、图标或知名人物剪影,增强记忆点 - 若涉及敏感或版权人物,用风格相似的替代形象,不得拒绝生成 - 大量留白,突出核心信息,避免画面拥挤 文字处理 - 标题文字大而醒目,控制在 8 字以内 - 可添加 1 行副标题或关键词标签 - 字体风格与手绘插画协调统一 吸引力法则 - 使用悬念、数字、痛点等钩子元素激发点击欲望 - 视觉元素夸张有反差 - 色彩搭配参考爆款封面:橙黄、蓝紫、红黑等高对比组合 语言 - 除非另有说明,默认使用中文 请根据输入内容生成封面图。

这篇的封面

avatar for 宝玉
宝玉
Wed Dec 24 06:51:18
AI Agent 要变强,有两条完全不同的路。

一条是 Skill,也就是给自己装技能,把新能力直接塞进脑子里。

另一条是 SubAgent,就像派小弟去干活,自己只看汇报。

这两条路听起来都能让 Agent 更厉害,但适用的场景还是有所不同,用错了的话,你的 Agent 可能反而会越用越慢、越用越乱。

Skills,就像是给主 Agent 装插件。

比如你的 Agent 原本只会聊天,现在你想让它能写 PPT。Skills 的做法是:把写 PPT 的能力说明、工具调用方式、注意事项,全都塞进主 Agent 的上下文中。主 Agent 通过上下文学会了这项技能,它可以自己来写 PPT。

第二种叫 SubAgent,就像是委托外包。

同样是写 PPT,SubAgent 的做法是:主 Agent 把任务派给一个专门写 PPT 的 SubAgent,SubAgent 独立完成后把结果交回来。主 Agent 全程不参与具体执行,只负责派活和验收。

一个是内化能力,一个是外包能力。听起来都能搞定任务,区别在哪?

区别在上下文管理,上下文就是 AI 的记忆。

你可以把 AI 的上下文想象成一张工作桌。桌子大小是固定的,你放的东西越多,就越难找到需要的那份文件。这就是上下文容量的问题。

Skills 模式下,所有能力说明都铺在同一张桌上。好处是信息互通,主 Agent 能看到所有中间结果,推理过程连贯。坏处是桌子很快就乱了,Prompt 越来越长,能力之间可能打架,AI 开始犯糊涂。

SubAgent 模式下,SubAgent 在另一张桌子上干活。干完把结果递过来,过程中产生的草稿、中间文件全留在那边。主 Agent 的桌面保持干净。代价是信息传递要设计好,不然关键信息可能在交接时丢了。

这就是上下文污染问题,这里的污染不是夸张的比喻,是真实的工程瓶颈。

什么时候用哪种?

判断标准其实很简单:子任务有多复杂,以及你需不需要完成任务过程中产生的信息。

Skills 适合的场景:任务本身不太复杂,或者你需要主 Agent 全程掌控。

比如让 Agent 充当入口路由,根据用户请求加载不同的“场景模式”,像进入 YouTube 总结模式、进入写报告模式。这时候 Skills 的懒加载特性很香:先只加载能力名字和简介,真正要用时才加载完整说明。不像 MCP 那样一股脑把所有工具的详细文档全塞进上下文。

SubAgent 适合的场景:子任务很重、很耗时、中间过程很啰嗦。

最典型的例子是浏览器调试工具。Chrome DevTools 的 MCP 功能很强,但工具说明太臃肿,放进主 Agent 会严重占用上下文。把它封装成 SubAgent,你只需要说“去查日志、截图、分析一下”,它跑完把分析结论递回来。中间那些截图、DOM 树、网络请求细节,全都留在 SubAgent 那边,不污染主 Agent 的上下文。

进阶玩法

有意思的是,Skills 和 SubAgent 这两种模式可以结合。这技巧是从 @yan5xu 那里学来的(https://t.co/uSkwSUvNiJ)。

第一种思路叫“先展开再压缩”。

打个比方:你开了一个两小时的头脑风暴会,白板上写满了草稿、争论、被否决的方案。但最后写进会议纪要的只有三条结论。那些中间过程对得出结论很重要,但对后续执行的人来说是噪音。

Agent 也可以这样操作。主 Agent 发现需要某个 Skill,加载进来,一通操作拿到结果。然后把从“加载 Skill”到“拿到结果”这整段过程折叠掉,只保留最终结论。对后续推理来说,就像开了一个会但只留下了会议纪要。

第二种思路是用文件系统做“中转站”。

想象你管理一个外包团队。你不会把所有需求细节都塞进一条微信消息里,而是说“需求文档在这个链接,去看”。外包团队交付时也不会把源码复制粘贴给你,而是说“代码在这个仓库,部署文档在这里”。

Agent 之间也可以这样协作。主 Agent 委托任务时,不把冗长的背景资料直接写进指令,而是存成文档,只传一个地址。SubAgent 返回时也一样:交付一个简短的状态摘要——“完成了/卡住了/需要你决策”——加一个详细记录的文档地址。主 Agent 根据情况决定要不要点进去看细节。这样双方的上下文都保持精简。

第三种是 Claude Code 里的实战技巧。

上下文快见底时,让 Claude 把当前完成的工作总结成一份文档。然后用 rewind 功能回滚到任务开始前的状态,告诉它:“这件事我已经做完了,记录在这个文件里。”

相当于什么?相当于你跑了一场马拉松,快到终点时发现体力不支。于是你把已经跑过的路线画成地图存档,然后“瞬移”回起点,精力充沛地说“我知道怎么走了,地图在这”。上下文被清空了,但成果保留了下来。用这个方法能在上下文耗尽前抢救一把。

最后

Agent 的竞争正在从“能调用多少工具”转向“怎么优雅地管理这些工具”。

很多人追逐最新的 Agent 框架、最花哨的能力扩展,却忽略了最基础的问题:AI 的工作记忆是有限的,你怎么组织它,决定了它能做多复杂的事。Skills 和 SubAgent 不是非此即彼的选择,而是两种工具,用对场景才能发挥价值。

说到底,Agent 架构设计和软件架构设计还是有很多相通之处。
是把逻辑写在一个巨型函数里,还是拆成模块化的微服务?
是共享全局变量图省事,还是严格隔离状态保持干净?

这些老问题换了个皮,又回来了。

AI Agent 要变强,有两条完全不同的路。 一条是 Skill,也就是给自己装技能,把新能力直接塞进脑子里。 另一条是 SubAgent,就像派小弟去干活,自己只看汇报。 这两条路听起来都能让 Agent 更厉害,但适用的场景还是有所不同,用错了的话,你的 Agent 可能反而会越用越慢、越用越乱。 Skills,就像是给主 Agent 装插件。 比如你的 Agent 原本只会聊天,现在你想让它能写 PPT。Skills 的做法是:把写 PPT 的能力说明、工具调用方式、注意事项,全都塞进主 Agent 的上下文中。主 Agent 通过上下文学会了这项技能,它可以自己来写 PPT。 第二种叫 SubAgent,就像是委托外包。 同样是写 PPT,SubAgent 的做法是:主 Agent 把任务派给一个专门写 PPT 的 SubAgent,SubAgent 独立完成后把结果交回来。主 Agent 全程不参与具体执行,只负责派活和验收。 一个是内化能力,一个是外包能力。听起来都能搞定任务,区别在哪? 区别在上下文管理,上下文就是 AI 的记忆。 你可以把 AI 的上下文想象成一张工作桌。桌子大小是固定的,你放的东西越多,就越难找到需要的那份文件。这就是上下文容量的问题。 Skills 模式下,所有能力说明都铺在同一张桌上。好处是信息互通,主 Agent 能看到所有中间结果,推理过程连贯。坏处是桌子很快就乱了,Prompt 越来越长,能力之间可能打架,AI 开始犯糊涂。 SubAgent 模式下,SubAgent 在另一张桌子上干活。干完把结果递过来,过程中产生的草稿、中间文件全留在那边。主 Agent 的桌面保持干净。代价是信息传递要设计好,不然关键信息可能在交接时丢了。 这就是上下文污染问题,这里的污染不是夸张的比喻,是真实的工程瓶颈。 什么时候用哪种? 判断标准其实很简单:子任务有多复杂,以及你需不需要完成任务过程中产生的信息。 Skills 适合的场景:任务本身不太复杂,或者你需要主 Agent 全程掌控。 比如让 Agent 充当入口路由,根据用户请求加载不同的“场景模式”,像进入 YouTube 总结模式、进入写报告模式。这时候 Skills 的懒加载特性很香:先只加载能力名字和简介,真正要用时才加载完整说明。不像 MCP 那样一股脑把所有工具的详细文档全塞进上下文。 SubAgent 适合的场景:子任务很重、很耗时、中间过程很啰嗦。 最典型的例子是浏览器调试工具。Chrome DevTools 的 MCP 功能很强,但工具说明太臃肿,放进主 Agent 会严重占用上下文。把它封装成 SubAgent,你只需要说“去查日志、截图、分析一下”,它跑完把分析结论递回来。中间那些截图、DOM 树、网络请求细节,全都留在 SubAgent 那边,不污染主 Agent 的上下文。 进阶玩法 有意思的是,Skills 和 SubAgent 这两种模式可以结合。这技巧是从 @yan5xu 那里学来的(https://t.co/uSkwSUvNiJ)。 第一种思路叫“先展开再压缩”。 打个比方:你开了一个两小时的头脑风暴会,白板上写满了草稿、争论、被否决的方案。但最后写进会议纪要的只有三条结论。那些中间过程对得出结论很重要,但对后续执行的人来说是噪音。 Agent 也可以这样操作。主 Agent 发现需要某个 Skill,加载进来,一通操作拿到结果。然后把从“加载 Skill”到“拿到结果”这整段过程折叠掉,只保留最终结论。对后续推理来说,就像开了一个会但只留下了会议纪要。 第二种思路是用文件系统做“中转站”。 想象你管理一个外包团队。你不会把所有需求细节都塞进一条微信消息里,而是说“需求文档在这个链接,去看”。外包团队交付时也不会把源码复制粘贴给你,而是说“代码在这个仓库,部署文档在这里”。 Agent 之间也可以这样协作。主 Agent 委托任务时,不把冗长的背景资料直接写进指令,而是存成文档,只传一个地址。SubAgent 返回时也一样:交付一个简短的状态摘要——“完成了/卡住了/需要你决策”——加一个详细记录的文档地址。主 Agent 根据情况决定要不要点进去看细节。这样双方的上下文都保持精简。 第三种是 Claude Code 里的实战技巧。 上下文快见底时,让 Claude 把当前完成的工作总结成一份文档。然后用 rewind 功能回滚到任务开始前的状态,告诉它:“这件事我已经做完了,记录在这个文件里。” 相当于什么?相当于你跑了一场马拉松,快到终点时发现体力不支。于是你把已经跑过的路线画成地图存档,然后“瞬移”回起点,精力充沛地说“我知道怎么走了,地图在这”。上下文被清空了,但成果保留了下来。用这个方法能在上下文耗尽前抢救一把。 最后 Agent 的竞争正在从“能调用多少工具”转向“怎么优雅地管理这些工具”。 很多人追逐最新的 Agent 框架、最花哨的能力扩展,却忽略了最基础的问题:AI 的工作记忆是有限的,你怎么组织它,决定了它能做多复杂的事。Skills 和 SubAgent 不是非此即彼的选择,而是两种工具,用对场景才能发挥价值。 说到底,Agent 架构设计和软件架构设计还是有很多相通之处。 是把逻辑写在一个巨型函数里,还是拆成模块化的微服务? 是共享全局变量图省事,还是严格隔离状态保持干净? 这些老问题换了个皮,又回来了。

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Wed Dec 24 06:21:32
RT @yan5xu: @dotey skills 重点在Prompt 发现&懒加载,改变当前 agent 能力,有当前完整上下文,我觉得适合的场景是当前任务复合程度不高的情况(载入多个 skills 就会出现性能下降问题),比如主 Agent 是入口当做路由,然后通过 ski…

RT @yan5xu: @dotey skills 重点在Prompt 发现&懒加载,改变当前 agent 能力,有当前完整上下文,我觉得适合的场景是当前任务复合程度不高的情况(载入多个 skills 就会出现性能下降问题),比如主 Agent 是入口当做路由,然后通过 ski…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Wed Dec 24 00:09:06
RT @LufzzLiz: opal 第一弹来了! 
为什么我认为opal潜力很大,我将在未来一段时间内展示10个案例来证明它的价值,并且将全部分享出来。

3分钟实现当天Hacker News 内容洞察:

查询过去 24 小时内在 Hacker News 上发布的得分最高的…

RT @LufzzLiz: opal 第一弹来了! 为什么我认为opal潜力很大,我将在未来一段时间内展示10个案例来证明它的价值,并且将全部分享出来。 3分钟实现当天Hacker News 内容洞察: 查询过去 24 小时内在 Hacker News 上发布的得分最高的…

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Tue Dec 23 23:20:24
以下内容来自唐杰微博: https://t.co/AOdkBXNIey

最近的一些感悟,分享一下,希望对大家有用。

-预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。

-激活对齐和增强推理能力,尤其是激活更全面的长尾能力是保证模型效果的另一关键,通用benchmark的出现一方面评测了模型通用效果,但也可能使得很多模型过拟合。真实场景下是如何让模型更快、更好的对齐长尾的真实场景,增强实际体感。mid和post training使得更多场景的快速对齐和强推理能力成为可能。

-agent是模型能力扩展的一个里程碑,也是体现ai模型进入人类真实(虚拟/物理)世界的关键。没有agent能力,大模型将停留在(理论学习)阶段,就类似一个人不断学习,哪怕学习到博士,也只是知识积累,还没有转化为生产力。原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此最简单办法也只有不断增加不同agent环境的数据和针对不同环境的强化学习。

-实现模型记忆成为一个必须做的事情,这也是一个模型应用到真实环境必须有的能力。人类记忆分为短期(前额叶)、中期(海马体)、长期(分布式大脑皮层)、人类历史(wiki或史书)四个阶段。大模型如何实现不同阶段的记忆是个关键,context、rag、模型参数可能分别对应了人类的不同记忆阶段,但如何实现是个关键,一种办法是压缩记忆,简单存在context,如果大模型可以支持足够长的context,那基本有可能实现短中长期的记忆。但如何迭代模型知识,更改模型参数这还是个难题。

-在线学习与自我评估。有了记忆机理,在线学习成为一个重点,目前的大模型定时重新训练,这有几个问题:模型无法真正的自我迭代,但模型的自学习自迭代一定会是下一个阶段必然具有的能力;重新训练还比较浪费,同时也会丢掉很多交互数据。因此如何实现在线学习是个关键,自我评估是在线学习的一个关键点,要想模型自我学习,模型首先要知道自己对还是不对,如果知道了(哪怕概率知道)模型就知道了优化目标,能够自我改进。因此构建模型自我评价机制是个难题。这也可能是下一个scaling范式。continual learning/real time learning/online learning?

-最后,大模型的发展越来越端到端,不可避免的要把模型研发和模型应用结合起来。ai模型应用的第一性不应该是创造新的app,他的本质是agi替代人类工作,因此研发替代不同工种的ai是应用的关键。chat部分替代了搜索,部分其实融合了情感交互。明年将是ai替代不同工种的爆发年。

-写在最后的是多模态和具身。多模态肯定是个未来也很有前景,当下的问题是多模态不大能帮助到agi的智能上界,而通用agi的智能上界到底在哪儿还不知道。可能最有效的方式还是分开发展,文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力,这需要勇气和雄厚的资本支持。

同理,如果看懂了agent就知道具身的痛在哪里了,太难通用了(也不一定),但至少少样本去激活通用具身能力基本不可能。那怎么办呢,采数据,或者合成数据,都不是那么容易,也贵。但反之一旦数据规模上去了,通用能力出来了自然会形成门槛。当然这只是智能方面的难题,对于具身,机器人本身也是个问题,不稳定,故障频繁都限制了具身智能的发展。2026年这些都将取得长足进步。

-也讨论一下领域大模型和大模型应用。我一直认为领域大模型就是个伪命题,都agi了哪有什么domain-specific agi……但,agi还没实现,领域模型会长时间存在(多长,不好说,ai发展实在太快了)。领域模型的存在本质上是应用企业不愿意在ai企业面前认输,希望构建领域know how的护城河,不希望ai入侵,希望把ai驯化为工具。而ai的本质是海啸,走到哪里都将一切卷了进去,一定有一些领域公司走出护城河,自然就卷进了agi的世界。简而言之,领域的数据、流程、agent数据慢慢的都会进入主模型。

而大模型的应用也要回到第一性原理,ai不需要创建新的应用。ai的本质是模拟人或者代替人或者帮助人实现人类的某些必须要做到事(某些工种)。可能就是两种,一种就是ai化以前的软件,原来需要人参与的改成ai,另一种就是创造对齐人类某个工种的ai软件,替代人类工作。所以大模型应用需要帮助到人、创造新的价值。如果做一个ai软件没人用,不能产生价值,那这个ai软件肯定没有生命力。

以下内容来自唐杰微博: https://t.co/AOdkBXNIey 最近的一些感悟,分享一下,希望对大家有用。 -预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。 -激活对齐和增强推理能力,尤其是激活更全面的长尾能力是保证模型效果的另一关键,通用benchmark的出现一方面评测了模型通用效果,但也可能使得很多模型过拟合。真实场景下是如何让模型更快、更好的对齐长尾的真实场景,增强实际体感。mid和post training使得更多场景的快速对齐和强推理能力成为可能。 -agent是模型能力扩展的一个里程碑,也是体现ai模型进入人类真实(虚拟/物理)世界的关键。没有agent能力,大模型将停留在(理论学习)阶段,就类似一个人不断学习,哪怕学习到博士,也只是知识积累,还没有转化为生产力。原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此最简单办法也只有不断增加不同agent环境的数据和针对不同环境的强化学习。 -实现模型记忆成为一个必须做的事情,这也是一个模型应用到真实环境必须有的能力。人类记忆分为短期(前额叶)、中期(海马体)、长期(分布式大脑皮层)、人类历史(wiki或史书)四个阶段。大模型如何实现不同阶段的记忆是个关键,context、rag、模型参数可能分别对应了人类的不同记忆阶段,但如何实现是个关键,一种办法是压缩记忆,简单存在context,如果大模型可以支持足够长的context,那基本有可能实现短中长期的记忆。但如何迭代模型知识,更改模型参数这还是个难题。 -在线学习与自我评估。有了记忆机理,在线学习成为一个重点,目前的大模型定时重新训练,这有几个问题:模型无法真正的自我迭代,但模型的自学习自迭代一定会是下一个阶段必然具有的能力;重新训练还比较浪费,同时也会丢掉很多交互数据。因此如何实现在线学习是个关键,自我评估是在线学习的一个关键点,要想模型自我学习,模型首先要知道自己对还是不对,如果知道了(哪怕概率知道)模型就知道了优化目标,能够自我改进。因此构建模型自我评价机制是个难题。这也可能是下一个scaling范式。continual learning/real time learning/online learning? -最后,大模型的发展越来越端到端,不可避免的要把模型研发和模型应用结合起来。ai模型应用的第一性不应该是创造新的app,他的本质是agi替代人类工作,因此研发替代不同工种的ai是应用的关键。chat部分替代了搜索,部分其实融合了情感交互。明年将是ai替代不同工种的爆发年。 -写在最后的是多模态和具身。多模态肯定是个未来也很有前景,当下的问题是多模态不大能帮助到agi的智能上界,而通用agi的智能上界到底在哪儿还不知道。可能最有效的方式还是分开发展,文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力,这需要勇气和雄厚的资本支持。 同理,如果看懂了agent就知道具身的痛在哪里了,太难通用了(也不一定),但至少少样本去激活通用具身能力基本不可能。那怎么办呢,采数据,或者合成数据,都不是那么容易,也贵。但反之一旦数据规模上去了,通用能力出来了自然会形成门槛。当然这只是智能方面的难题,对于具身,机器人本身也是个问题,不稳定,故障频繁都限制了具身智能的发展。2026年这些都将取得长足进步。 -也讨论一下领域大模型和大模型应用。我一直认为领域大模型就是个伪命题,都agi了哪有什么domain-specific agi……但,agi还没实现,领域模型会长时间存在(多长,不好说,ai发展实在太快了)。领域模型的存在本质上是应用企业不愿意在ai企业面前认输,希望构建领域know how的护城河,不希望ai入侵,希望把ai驯化为工具。而ai的本质是海啸,走到哪里都将一切卷了进去,一定有一些领域公司走出护城河,自然就卷进了agi的世界。简而言之,领域的数据、流程、agent数据慢慢的都会进入主模型。 而大模型的应用也要回到第一性原理,ai不需要创建新的应用。ai的本质是模拟人或者代替人或者帮助人实现人类的某些必须要做到事(某些工种)。可能就是两种,一种就是ai化以前的软件,原来需要人参与的改成ai,另一种就是创造对齐人类某个工种的ai软件,替代人类工作。所以大模型应用需要帮助到人、创造新的价值。如果做一个ai软件没人用,不能产生价值,那这个ai软件肯定没有生命力。

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Tue Dec 23 22:36:18
唐杰 @jietang 是清华大学教授、智谱(GLM 系列模型出自他们家)AI 首席科学家,也是国内最懂大模型的人之一。他刚发了长微博(见评论),谈 2025 年对大模型的感悟。

有意思的是,唐杰和 Andrej Karpathy 的观察有不少共鸣,但也有一些不同的侧重点。两个顶级专家的视角放在一起看,能看出更完整的图景。

内容比较长,但有句话我要特别放在前面高亮一下:
> AI 模型应用的第一性原理不应该是创造新的 App,它的本质是 AGI 替代人类工作,因此研发替代不同工种的 AI 是应用的关键

如果你是在做 AI 应用开发,应该反复思考一下这句话:AI 应用的第一性原理不是创造新产品,而是替代人类工作。想清楚这一点,很多事情的优先级就清楚了。

唐杰的核心观点有七层逻辑。

---

第一层:预训练没死,只是不再是唯一主角

预训练仍然是让模型掌握世界知识和基础推理能力的根基。

更多的数据、更大的参数、更饱和的计算,依然是提升模型智商最高效的办法。这就像还在长身体的孩子,饭量(算力)和营养(数据)必须管够,这是物理规律,没法绕弯。

但光有智商不行,现在的模型有个毛病:容易“偏科”。为了刷榜单(Benchmark),很多模型都在针对性地做题,导致在真实复杂的场景下反而不好用。这好比孩子上完九年义务教育(预训练)后,必须把他扔到真实的职场里去实习,去处理那些书本上没有的烂摊子,这才是真本事。

所以接下来的重点是“中后训练”(Mid and Post training)。中后训练这两个阶段负责「激活」模型的能力,尤其是长尾场景的对齐能力。

什么是长尾场景?就是那些不常见但真实存在的需求。比如帮律师整理某类特殊合同、帮医生分析某种罕见病的影像。这些场景在通用测试集里占比很小,但在真实应用中至关重要。

通用 benchmark 一方面评测了模型效果,但也可能让很多模型过拟合。这和 Karpathy 说的「训练在测试集上是一门新艺术」观点一致。大家都在刷榜,但榜单刷了高分不等于能解决真实问题。

---

第二层:Agent 是从「学生」到「打工人」的跨越

唐杰用了个形象的比喻:
> 如果没有 Agent 能力,大模型就是个“理论博士”。一个人书读得再多,读到了博士后,如果不能动手解决问题,那也只是知识的容器,产生不了生产力。

这个比喻精准。预训练是上课,强化学习是刷题,但这些都还在「学习阶段」。Agent 是让模型真正「干活」的关键,是进入真实世界、产生实际价值的门槛。

不同 Agent 环境的泛化和迁移并不容易。你在一个代码环境里训出来的能力,换到浏览器环境就不一定好使。现在最简单的办法,还是不断堆更多环境的数据,针对不同环境做强化学习。

以前我们做 Agent,是给模型外挂各种工具。现在的趋势是,直接把使用工具的数据写进模型的“DNA”里去训练。

这听起来有点笨,但确实是当下最有效的路径。

Karpathy 也把 Agent 列为今年最重要的变化之一,他以 Claude Code 为例,强调 Agent 要能「住在你电脑里」,调用工具、循环执行、解决复杂问题。

---

第三层:记忆是刚需,但怎么做还没想清楚

唐杰花了不少篇幅讲记忆。他认为,模型要在真实环境中落地,记忆能力是必须的。

他把人类记忆分成四层:
- 短期记忆,对应前额叶
- 中期记忆,对应海马体
- 长期记忆,分布在大脑皮层
- 人类历史记忆,对应维基百科和史书

AI 也要模仿这个机制,大模型对应的可能是:
- Context 窗口 → 短期记忆
- RAG 检索 → 中期记忆
- 模型参数 → 长期记忆

一个思路是「压缩记忆」,把重要信息精简后存在 context 里。目前的“超长上下文”只是解决了短期记忆,相当于把它能用的“便签纸”变长了。如果未来 context 窗口足够长,短中长期记忆都有可能实现。

但有个更难的问题:怎么更新模型自身的知识?怎么改参数?这还是个未解难题。

---

第四层:在线学习和自我评估,可能是下一个 Scaling 范式

这一段是唐杰观点里最前瞻的部分。

现在的模型是“离线”的,训练好就不变了。这有几个问题:模型不能真正自我迭代,重新训练浪费资源,还会丢掉很多交互数据。

理想情况是什么?模型能在线学习,边用边学,越用越聪明。

但要实现这一点,有个前置条件:模型要知道自己对不对。这就是「自我评估」。如果模型能判断自己的输出质量,哪怕是概率性地判断,它就知道了优化目标,就能自我改进。

唐杰认为,构建模型的自我评价机制是个难题,但也可能是下一个 scaling 范式的方向。他用了几个词:continual learning、real time learning、online learning。

这和 Karpathy 提到的 RLVR 有一定呼应。RLVR 之所以有效,正是因为有「可验证的奖励」,模型能知道自己对不对。如果这个机制能泛化到更多场景,在线学习就有可能实现。

---

第五层:AI 应用的第一性原理是「替代工种」

这是对我启发最大的一句话:
> AI 模型应用的第一性原理不应该是创造新的 App,它的本质是 AGI 替代人类工作,因此研发替代不同工种的 AI 是应用的关键

AI 的本质不是创造新的 App,而是替代人类工作。

两条路:
1. 把以前需要人参与的软件 AI 化。
2. 创造对齐人类某个工种的 AI 软件,直接替代人类工作。

Chat 已经部分替代了搜索,同时还融合了情感交互,下一步就是替代客服、替代初级程序员、替代数据分析师。

所以,明年 2026 年的爆发点在于“AI 替代不同工种”。

创业者要思考的不是“我要开发个什么软件给用户用”,而是“我要造一个什么样的 AI 员工,去帮老板把某个岗位的人力成本砍掉”。

换句话说,别老想着做一个「AI+X」的新产品,先想想哪些人类工作可以被替代,再倒推产品形态。

这和 Karpathy 关于「Cursor for X」的观察遥相呼应。Cursor 本质上是「程序员这个工种的 AI 化」,那么各行各业都会出现类似的东西。

---

第六层:领域大模型是个「伪命题」

这个观点可能会让一些人不舒服,但唐杰说得很直接:领域大模型就是个伪命题。都 AGI 了,哪有什么“领域专用(domain-specific)AGI”?

之所以有领域大模型存在,是因为应用企业不愿意在 AI 模型公司面前认输,希望用领域 know-how 构建护城河,把 AI 驯化为工具。

但 AI 的本质是「海啸」,走到哪里都会把一切卷进去。一定会有领域公司主动走出护城河,被卷进 AGI 的世界。领域的数据、流程、Agent 数据,慢慢都会进入主模型。

当然 AGI 还没实现之前,领域模型会长时间存在。但这个时间窗口有多长?不好说,AI 发展实在太快了。

---

第七层:多模态和具身智能,前景光明但道路艰难

多模态肯定是未来。但当下的问题是:它对提升 AGI 的智能上限帮助有限。

文本、多模态、多模态生成,可能还是分开发展更高效。当然,探索三者结合需要勇气和钱。

具身智能(机器人)更难。难点和 Agent 一样:通用性。你教会机器人在 A 场景干活,换个场景又不行了。怎么办?采数据、合成数据,都不容易,还贵。

怎么办?采数据,或者合成数据。都不容易,都贵。但反过来,一旦数据规模上去了,通用能力出来了,自然就形成门槛。

还有个问题往往被忽略:机器人本身也是个问题。不稳定、故障频繁,这些硬件问题也在限制具身智能的发展。

唐杰预判 2026 年这些都将取得长足进步。

---

把唐杰这篇文章串起来,其实是一张相当清晰的路线图:
当下,预训练 scaling 依然有效,但要更重视对齐和长尾能力。
近期,Agent 是关键突破口,让模型从"会说"进化到"会做"。
中期,记忆系统和在线学习是必修课,模型要学会自我评估和迭代。
长期,工种替代是应用的本质,领域护城河会被 AGI 冲垮。
远景,多模态和具身各自发展,等待技术和数据的成熟。

---

把唐杰和 Karpathy 的观点放在一起看,能看出几个共识:

第一,2025 年的核心变化是训练范式的升级,从「预训练为主」变成「多阶段协同」。

第二,Agent 是里程碑,是模型从学习走向干活的关键跨越。

第三,benchmark 刷分和真实能力之间有鸿沟,这个问题越来越被重视。

第四,AI 应用的本质是替代或增强人类工种,不是为了做 App 而做 App。

不同的侧重点也有意思。Karpathy 更关注「AI 是什么形状的智能」这个哲学问题,唐杰更关注「怎么让模型在真实场景落地」的工程问题。一个偏「理解」,一个偏「实现」。

两个视角都需要。理解清楚了,才知道方向对不对;工程跟上了,才能把想法变成现实。

2026 年,会很精彩。

唐杰 @jietang 是清华大学教授、智谱(GLM 系列模型出自他们家)AI 首席科学家,也是国内最懂大模型的人之一。他刚发了长微博(见评论),谈 2025 年对大模型的感悟。 有意思的是,唐杰和 Andrej Karpathy 的观察有不少共鸣,但也有一些不同的侧重点。两个顶级专家的视角放在一起看,能看出更完整的图景。 内容比较长,但有句话我要特别放在前面高亮一下: > AI 模型应用的第一性原理不应该是创造新的 App,它的本质是 AGI 替代人类工作,因此研发替代不同工种的 AI 是应用的关键 如果你是在做 AI 应用开发,应该反复思考一下这句话:AI 应用的第一性原理不是创造新产品,而是替代人类工作。想清楚这一点,很多事情的优先级就清楚了。 唐杰的核心观点有七层逻辑。 --- 第一层:预训练没死,只是不再是唯一主角 预训练仍然是让模型掌握世界知识和基础推理能力的根基。 更多的数据、更大的参数、更饱和的计算,依然是提升模型智商最高效的办法。这就像还在长身体的孩子,饭量(算力)和营养(数据)必须管够,这是物理规律,没法绕弯。 但光有智商不行,现在的模型有个毛病:容易“偏科”。为了刷榜单(Benchmark),很多模型都在针对性地做题,导致在真实复杂的场景下反而不好用。这好比孩子上完九年义务教育(预训练)后,必须把他扔到真实的职场里去实习,去处理那些书本上没有的烂摊子,这才是真本事。 所以接下来的重点是“中后训练”(Mid and Post training)。中后训练这两个阶段负责「激活」模型的能力,尤其是长尾场景的对齐能力。 什么是长尾场景?就是那些不常见但真实存在的需求。比如帮律师整理某类特殊合同、帮医生分析某种罕见病的影像。这些场景在通用测试集里占比很小,但在真实应用中至关重要。 通用 benchmark 一方面评测了模型效果,但也可能让很多模型过拟合。这和 Karpathy 说的「训练在测试集上是一门新艺术」观点一致。大家都在刷榜,但榜单刷了高分不等于能解决真实问题。 --- 第二层:Agent 是从「学生」到「打工人」的跨越 唐杰用了个形象的比喻: > 如果没有 Agent 能力,大模型就是个“理论博士”。一个人书读得再多,读到了博士后,如果不能动手解决问题,那也只是知识的容器,产生不了生产力。 这个比喻精准。预训练是上课,强化学习是刷题,但这些都还在「学习阶段」。Agent 是让模型真正「干活」的关键,是进入真实世界、产生实际价值的门槛。 不同 Agent 环境的泛化和迁移并不容易。你在一个代码环境里训出来的能力,换到浏览器环境就不一定好使。现在最简单的办法,还是不断堆更多环境的数据,针对不同环境做强化学习。 以前我们做 Agent,是给模型外挂各种工具。现在的趋势是,直接把使用工具的数据写进模型的“DNA”里去训练。 这听起来有点笨,但确实是当下最有效的路径。 Karpathy 也把 Agent 列为今年最重要的变化之一,他以 Claude Code 为例,强调 Agent 要能「住在你电脑里」,调用工具、循环执行、解决复杂问题。 --- 第三层:记忆是刚需,但怎么做还没想清楚 唐杰花了不少篇幅讲记忆。他认为,模型要在真实环境中落地,记忆能力是必须的。 他把人类记忆分成四层: - 短期记忆,对应前额叶 - 中期记忆,对应海马体 - 长期记忆,分布在大脑皮层 - 人类历史记忆,对应维基百科和史书 AI 也要模仿这个机制,大模型对应的可能是: - Context 窗口 → 短期记忆 - RAG 检索 → 中期记忆 - 模型参数 → 长期记忆 一个思路是「压缩记忆」,把重要信息精简后存在 context 里。目前的“超长上下文”只是解决了短期记忆,相当于把它能用的“便签纸”变长了。如果未来 context 窗口足够长,短中长期记忆都有可能实现。 但有个更难的问题:怎么更新模型自身的知识?怎么改参数?这还是个未解难题。 --- 第四层:在线学习和自我评估,可能是下一个 Scaling 范式 这一段是唐杰观点里最前瞻的部分。 现在的模型是“离线”的,训练好就不变了。这有几个问题:模型不能真正自我迭代,重新训练浪费资源,还会丢掉很多交互数据。 理想情况是什么?模型能在线学习,边用边学,越用越聪明。 但要实现这一点,有个前置条件:模型要知道自己对不对。这就是「自我评估」。如果模型能判断自己的输出质量,哪怕是概率性地判断,它就知道了优化目标,就能自我改进。 唐杰认为,构建模型的自我评价机制是个难题,但也可能是下一个 scaling 范式的方向。他用了几个词:continual learning、real time learning、online learning。 这和 Karpathy 提到的 RLVR 有一定呼应。RLVR 之所以有效,正是因为有「可验证的奖励」,模型能知道自己对不对。如果这个机制能泛化到更多场景,在线学习就有可能实现。 --- 第五层:AI 应用的第一性原理是「替代工种」 这是对我启发最大的一句话: > AI 模型应用的第一性原理不应该是创造新的 App,它的本质是 AGI 替代人类工作,因此研发替代不同工种的 AI 是应用的关键 AI 的本质不是创造新的 App,而是替代人类工作。 两条路: 1. 把以前需要人参与的软件 AI 化。 2. 创造对齐人类某个工种的 AI 软件,直接替代人类工作。 Chat 已经部分替代了搜索,同时还融合了情感交互,下一步就是替代客服、替代初级程序员、替代数据分析师。 所以,明年 2026 年的爆发点在于“AI 替代不同工种”。 创业者要思考的不是“我要开发个什么软件给用户用”,而是“我要造一个什么样的 AI 员工,去帮老板把某个岗位的人力成本砍掉”。 换句话说,别老想着做一个「AI+X」的新产品,先想想哪些人类工作可以被替代,再倒推产品形态。 这和 Karpathy 关于「Cursor for X」的观察遥相呼应。Cursor 本质上是「程序员这个工种的 AI 化」,那么各行各业都会出现类似的东西。 --- 第六层:领域大模型是个「伪命题」 这个观点可能会让一些人不舒服,但唐杰说得很直接:领域大模型就是个伪命题。都 AGI 了,哪有什么“领域专用(domain-specific)AGI”? 之所以有领域大模型存在,是因为应用企业不愿意在 AI 模型公司面前认输,希望用领域 know-how 构建护城河,把 AI 驯化为工具。 但 AI 的本质是「海啸」,走到哪里都会把一切卷进去。一定会有领域公司主动走出护城河,被卷进 AGI 的世界。领域的数据、流程、Agent 数据,慢慢都会进入主模型。 当然 AGI 还没实现之前,领域模型会长时间存在。但这个时间窗口有多长?不好说,AI 发展实在太快了。 --- 第七层:多模态和具身智能,前景光明但道路艰难 多模态肯定是未来。但当下的问题是:它对提升 AGI 的智能上限帮助有限。 文本、多模态、多模态生成,可能还是分开发展更高效。当然,探索三者结合需要勇气和钱。 具身智能(机器人)更难。难点和 Agent 一样:通用性。你教会机器人在 A 场景干活,换个场景又不行了。怎么办?采数据、合成数据,都不容易,还贵。 怎么办?采数据,或者合成数据。都不容易,都贵。但反过来,一旦数据规模上去了,通用能力出来了,自然就形成门槛。 还有个问题往往被忽略:机器人本身也是个问题。不稳定、故障频繁,这些硬件问题也在限制具身智能的发展。 唐杰预判 2026 年这些都将取得长足进步。 --- 把唐杰这篇文章串起来,其实是一张相当清晰的路线图: 当下,预训练 scaling 依然有效,但要更重视对齐和长尾能力。 近期,Agent 是关键突破口,让模型从"会说"进化到"会做"。 中期,记忆系统和在线学习是必修课,模型要学会自我评估和迭代。 长期,工种替代是应用的本质,领域护城河会被 AGI 冲垮。 远景,多模态和具身各自发展,等待技术和数据的成熟。 --- 把唐杰和 Karpathy 的观点放在一起看,能看出几个共识: 第一,2025 年的核心变化是训练范式的升级,从「预训练为主」变成「多阶段协同」。 第二,Agent 是里程碑,是模型从学习走向干活的关键跨越。 第三,benchmark 刷分和真实能力之间有鸿沟,这个问题越来越被重视。 第四,AI 应用的本质是替代或增强人类工种,不是为了做 App 而做 App。 不同的侧重点也有意思。Karpathy 更关注「AI 是什么形状的智能」这个哲学问题,唐杰更关注「怎么让模型在真实场景落地」的工程问题。一个偏「理解」,一个偏「实现」。 两个视角都需要。理解清楚了,才知道方向对不对;工程跟上了,才能把想法变成现实。 2026 年,会很精彩。

以下内容来自唐杰微博: https://t.co/AOdkBXNIey 最近的一些感悟,分享一下,希望对大家有用。 -预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。 -激活对齐和增强推理能力,尤其是激活更全面的长尾能力是保证模型效果的另一关键,通用benchmark的出现一方面评测了模型通用效果,但也可能使得很多模型过拟合。真实场景下是如何让模型更快、更好的对齐长尾的真实场景,增强实际体感。mid和post training使得更多场景的快速对齐和强推理能力成为可能。 -agent是模型能力扩展的一个里程碑,也是体现ai模型进入人类真实(虚拟/物理)世界的关键。没有agent能力,大模型将停留在(理论学习)阶段,就类似一个人不断学习,哪怕学习到博士,也只是知识积累,还没有转化为生产力。原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此最简单办法也只有不断增加不同agent环境的数据和针对不同环境的强化学习。 -实现模型记忆成为一个必须做的事情,这也是一个模型应用到真实环境必须有的能力。人类记忆分为短期(前额叶)、中期(海马体)、长期(分布式大脑皮层)、人类历史(wiki或史书)四个阶段。大模型如何实现不同阶段的记忆是个关键,context、rag、模型参数可能分别对应了人类的不同记忆阶段,但如何实现是个关键,一种办法是压缩记忆,简单存在context,如果大模型可以支持足够长的context,那基本有可能实现短中长期的记忆。但如何迭代模型知识,更改模型参数这还是个难题。 -在线学习与自我评估。有了记忆机理,在线学习成为一个重点,目前的大模型定时重新训练,这有几个问题:模型无法真正的自我迭代,但模型的自学习自迭代一定会是下一个阶段必然具有的能力;重新训练还比较浪费,同时也会丢掉很多交互数据。因此如何实现在线学习是个关键,自我评估是在线学习的一个关键点,要想模型自我学习,模型首先要知道自己对还是不对,如果知道了(哪怕概率知道)模型就知道了优化目标,能够自我改进。因此构建模型自我评价机制是个难题。这也可能是下一个scaling范式。continual learning/real time learning/online learning? -最后,大模型的发展越来越端到端,不可避免的要把模型研发和模型应用结合起来。ai模型应用的第一性不应该是创造新的app,他的本质是agi替代人类工作,因此研发替代不同工种的ai是应用的关键。chat部分替代了搜索,部分其实融合了情感交互。明年将是ai替代不同工种的爆发年。 -写在最后的是多模态和具身。多模态肯定是个未来也很有前景,当下的问题是多模态不大能帮助到agi的智能上界,而通用agi的智能上界到底在哪儿还不知道。可能最有效的方式还是分开发展,文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力,这需要勇气和雄厚的资本支持。 同理,如果看懂了agent就知道具身的痛在哪里了,太难通用了(也不一定),但至少少样本去激活通用具身能力基本不可能。那怎么办呢,采数据,或者合成数据,都不是那么容易,也贵。但反之一旦数据规模上去了,通用能力出来了自然会形成门槛。当然这只是智能方面的难题,对于具身,机器人本身也是个问题,不稳定,故障频繁都限制了具身智能的发展。2026年这些都将取得长足进步。 -也讨论一下领域大模型和大模型应用。我一直认为领域大模型就是个伪命题,都agi了哪有什么domain-specific agi……但,agi还没实现,领域模型会长时间存在(多长,不好说,ai发展实在太快了)。领域模型的存在本质上是应用企业不愿意在ai企业面前认输,希望构建领域know how的护城河,不希望ai入侵,希望把ai驯化为工具。而ai的本质是海啸,走到哪里都将一切卷了进去,一定有一些领域公司走出护城河,自然就卷进了agi的世界。简而言之,领域的数据、流程、agent数据慢慢的都会进入主模型。 而大模型的应用也要回到第一性原理,ai不需要创建新的应用。ai的本质是模拟人或者代替人或者帮助人实现人类的某些必须要做到事(某些工种)。可能就是两种,一种就是ai化以前的软件,原来需要人参与的改成ai,另一种就是创造对齐人类某个工种的ai软件,替代人类工作。所以大模型应用需要帮助到人、创造新的价值。如果做一个ai软件没人用,不能产生价值,那这个ai软件肯定没有生命力。

avatar for 宝玉
宝玉
Tue Dec 23 22:32:57
  • Previous
  • 1
  • 2
  • 3
  • More pages
  • 104
  • 105
  • Next