LogoThread Easy
  • Explore
  • Thread Compose
LogoThread Easy

Your All-in-One Twitter Thread Companion

© 2025 Thread Easy All Rights Reserved.

Explore

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

相信很多人都翻译或总结AK的2025总结了。

为自己学习,再重写排版一遍,推荐看原文。

---

Andrej Karpathy 写了篇 2025 年 LLM 回顾,列了六个他觉得"改变格局"的事。

1. 强化学习找到了新玩法

以前训练大模型,就三步:

① 预训练(2020 年的 GPT-2/3 那套)
② 监督微调(2022 年的 InstructGPT)
④ 人类反馈强化学习(RLHF,也是 2022 年)。

这个配方稳定了好几年。

2025 年多了第四步,RLVR(可验证奖励强化学习)。

让模型去解数学题、写代码这类有标准答案的问题,它会自己摸索出"推理"的策略。

会把问题拆成小步骤,会来回试错,会自己找到适合自己的方法。

这些策略在之前的训练方式里很难教,因为你不知道什么样的推理路径对模型来说是最优的,只能让它自己通过奖励优化去发现。

关键的变化是计算资源的分配。

之前的监督微调和 RLHF 都是"薄薄一层",计算量不大。

但 RLVR 可以训练很久,因为奖励函数是客观的,不会被钻空子。

结果就是,原本用来预训练的算力,被 RLVR 吃掉了。

所以 2025 年,模型大小没怎么变,但强化学习的时间大幅延长。

而且多了一个新的控制旋钮:测试时计算量。

你可以让模型生成更长的推理过程,增加"思考时间",来提升能力。

OpenAI 的 o1(2024 年底)是第一个 RLVR 模型。

但 o3(2025 年初)才是真正的拐点,你能直观感受到差异。

2. 我们在召唤幽灵,不是养动物

2025 年,Karpathy 说他开始更直观地理解大模型智能的"形状"了。

他用了一个很有意思的比喻:我们不是在进化动物,是在召唤幽灵。

大模型的一切都不一样,神经网络架构、训练数据、训练算法,尤其是优化压力。

人类的智能是为了在丛林里生存优化的。

但大模型的智能,是为了模仿人类文本、在数学题里拿奖励、在 LLM 竞技场上获得人类点赞优化的。

所以它们表现出来的能力,特别不均匀,像锯齿一样。

在可验证的领域(比如数学、代码),因为可以用 RLVR 训练,模型的能力会"爆发"。

但同时,它也可能是个困惑的小学生,随时被一个越狱攻击骗走你的数据。

Karpathy 说,人类的智能其实也是锯齿状的,只是形状不一样。

他对评测基准失去了信任。

核心问题是,基准测试几乎都是可验证的环境,所以立刻就会被 RLVR 和合成数据生成盯上。

实验室的团队会在基准测试占据的嵌入空间附近,构建训练环境,长出锯齿来覆盖它们。

在测试集上训练,已经成了一门新的艺术形式。(讽刺?)

他还问了一个很扎心的问题:如果在所有基准测试上都拿了高分,但还是没实现 AGI,那会是什么样子?

3. Cursor 让大家看到了应用层

Cursor 今年火得很快,但 Karpathy 觉得更重要的是,它让人看到了"LLM 应用"这个新层次。

人们开始说"Cursor for X"。

Cursor 这类应用做的事情,不只是调一次大模型:

① 做上下文工程
② 在后台把多个大模型调用串成越来越复杂的 DAG(有向无环图),平衡性能和成本
③ 给用户提供一个针对特定应用的界面
④ 提供一个"自主滑动条",让你控制它的自由度

2025 年有很多讨论,这个应用层到底有多"厚"。

大模型实验室会不会把所有应用都吃掉?还是 LLM 应用有自己的生存空间?

Karpathy 的看法是:

大模型实验室会培养出"能力不错的大学生"。

但 LLM 应用会把这些大学生组织起来,通过提供私有数据、传感器、执行器和反馈循环,把它们变成特定领域的专业团队。

4. Claude Code 让 AI 住进了你的电脑

Claude Code 是 2025 年第一个让人信服的"智能体"。

它会循环地使用工具和推理,解决复杂问题。

但更重要的是,它跑在你的电脑上,用你的私有环境、数据和上下文。

Karpathy 觉得 OpenAI 搞错了方向。

他们把 Codex 和智能体的精力,都放在从 ChatGPT 编排的云端容器上,而不是 localhost。

虽然云端智能体群听起来像"AGI 的终极形态",但我们现在生活在一个能力发展不均匀、进展缓慢的中间世界。

在这个阶段,让智能体直接在电脑上和开发者并肩工作,更合理。

Claude Code 把这个做成了一个简洁、优雅的命令行工具,改变了 AI 的样子。

它不再只是一个你要去访问的网站(像 Google 那样),而是一个"住"在你电脑上的小精灵、小幽灵。

这是一种和 AI 互动的新范式。

5. Vibe Coding 让编程变成了所有人的事

2025 年,AI 跨过了一个能力门槛。

你可以用英语描述,就能做出各种复杂的程序,甚至不用管代码长什么样。

Karpathy 在一条推文里随口说了"Vibe Coding"这个词,没想到它传得这么远。

Vibe Coding 让编程不再是专业人士的专利,任何人都可以做。

但更重要的是,它让专业人士也能写更多原本不会写的软件。

Karpathy 举了自己的例子。

他在 nanochat 项目里,用 Rust 写了个高效的 BPE 分词器,但他根本不懂那个级别的 Rust,全靠 Vibe Coding。

他还做了很多快速演示项目(menugen、llm-council、reader3、HN time capsule),甚至做了一些一次性的程序,就为了找一个 bug。

代码突然变得免费、短暂、可塑、用完就扔。

Vibe Coding 会改变软件的样子,也会改变工作的定义。

Karpathy 还提到了他之前写的文章《赋权于民:LLMs 如何颠覆技术扩散》。

和之前所有技术不同,普通人从大模型中获得的利益,远超专业人士、企业和政府。

6. Nano Banana 是大模型的 GUI

Google 的 Gemini Nano Banana 是 2025 年最让人惊讶的模型之一。

Karpathy 觉得,大模型是下一个主要的计算范式,就像 1970、80 年代的计算机一样。

所以我们会看到类似的创新,原因也类似。

会有个人计算的等价物,会有微控制器(认知核心)的等价物,会有互联网(智能体网络)的等价物。

在交互界面上,和大模型"聊天",就像 1980 年代在控制台输命令。

文本是计算机和大模型喜欢的原始格式,但不是人喜欢的。

人其实不爱读文字,太慢太累。

人喜欢视觉化、空间化的信息,所以传统计算机发明了 GUI。

大模型也应该用我们喜欢的格式说话:图像、信息图、幻灯片、白板、动画、视频、网页应用。

早期版本是 emoji 和 Markdown,它们是"装饰"文本的方式,用标题、粗体、斜体、列表、表格让信息更容易消化。

但谁会真正构建大模型的 GUI?

Nano Banana 是一个早期的提示。

重要的是,它不只是生成图像,而是把文本生成、图像生成和世界知识,都缠在模型权重里,形成联合能力。

最后的话

Karpathy 说,2025 年的大模型,既比他预期的聪明很多,又比他预期的笨很多。

但它们非常有用,行业连它们 10% 的潜力都还没挖出来。

有太多想法可以试,这个领域在概念上还很开放。

他在今年的 Dwarkesh 播客里说过一句话,我觉得很有意思:他同时相信两件看起来矛盾的事,我们会看到快速且持续的进步,但同时还有大量工作要做。

坐稳了。

相信很多人都翻译或总结AK的2025总结了。 为自己学习,再重写排版一遍,推荐看原文。 --- Andrej Karpathy 写了篇 2025 年 LLM 回顾,列了六个他觉得"改变格局"的事。 1. 强化学习找到了新玩法 以前训练大模型,就三步: ① 预训练(2020 年的 GPT-2/3 那套) ② 监督微调(2022 年的 InstructGPT) ④ 人类反馈强化学习(RLHF,也是 2022 年)。 这个配方稳定了好几年。 2025 年多了第四步,RLVR(可验证奖励强化学习)。 让模型去解数学题、写代码这类有标准答案的问题,它会自己摸索出"推理"的策略。 会把问题拆成小步骤,会来回试错,会自己找到适合自己的方法。 这些策略在之前的训练方式里很难教,因为你不知道什么样的推理路径对模型来说是最优的,只能让它自己通过奖励优化去发现。 关键的变化是计算资源的分配。 之前的监督微调和 RLHF 都是"薄薄一层",计算量不大。 但 RLVR 可以训练很久,因为奖励函数是客观的,不会被钻空子。 结果就是,原本用来预训练的算力,被 RLVR 吃掉了。 所以 2025 年,模型大小没怎么变,但强化学习的时间大幅延长。 而且多了一个新的控制旋钮:测试时计算量。 你可以让模型生成更长的推理过程,增加"思考时间",来提升能力。 OpenAI 的 o1(2024 年底)是第一个 RLVR 模型。 但 o3(2025 年初)才是真正的拐点,你能直观感受到差异。 2. 我们在召唤幽灵,不是养动物 2025 年,Karpathy 说他开始更直观地理解大模型智能的"形状"了。 他用了一个很有意思的比喻:我们不是在进化动物,是在召唤幽灵。 大模型的一切都不一样,神经网络架构、训练数据、训练算法,尤其是优化压力。 人类的智能是为了在丛林里生存优化的。 但大模型的智能,是为了模仿人类文本、在数学题里拿奖励、在 LLM 竞技场上获得人类点赞优化的。 所以它们表现出来的能力,特别不均匀,像锯齿一样。 在可验证的领域(比如数学、代码),因为可以用 RLVR 训练,模型的能力会"爆发"。 但同时,它也可能是个困惑的小学生,随时被一个越狱攻击骗走你的数据。 Karpathy 说,人类的智能其实也是锯齿状的,只是形状不一样。 他对评测基准失去了信任。 核心问题是,基准测试几乎都是可验证的环境,所以立刻就会被 RLVR 和合成数据生成盯上。 实验室的团队会在基准测试占据的嵌入空间附近,构建训练环境,长出锯齿来覆盖它们。 在测试集上训练,已经成了一门新的艺术形式。(讽刺?) 他还问了一个很扎心的问题:如果在所有基准测试上都拿了高分,但还是没实现 AGI,那会是什么样子? 3. Cursor 让大家看到了应用层 Cursor 今年火得很快,但 Karpathy 觉得更重要的是,它让人看到了"LLM 应用"这个新层次。 人们开始说"Cursor for X"。 Cursor 这类应用做的事情,不只是调一次大模型: ① 做上下文工程 ② 在后台把多个大模型调用串成越来越复杂的 DAG(有向无环图),平衡性能和成本 ③ 给用户提供一个针对特定应用的界面 ④ 提供一个"自主滑动条",让你控制它的自由度 2025 年有很多讨论,这个应用层到底有多"厚"。 大模型实验室会不会把所有应用都吃掉?还是 LLM 应用有自己的生存空间? Karpathy 的看法是: 大模型实验室会培养出"能力不错的大学生"。 但 LLM 应用会把这些大学生组织起来,通过提供私有数据、传感器、执行器和反馈循环,把它们变成特定领域的专业团队。 4. Claude Code 让 AI 住进了你的电脑 Claude Code 是 2025 年第一个让人信服的"智能体"。 它会循环地使用工具和推理,解决复杂问题。 但更重要的是,它跑在你的电脑上,用你的私有环境、数据和上下文。 Karpathy 觉得 OpenAI 搞错了方向。 他们把 Codex 和智能体的精力,都放在从 ChatGPT 编排的云端容器上,而不是 localhost。 虽然云端智能体群听起来像"AGI 的终极形态",但我们现在生活在一个能力发展不均匀、进展缓慢的中间世界。 在这个阶段,让智能体直接在电脑上和开发者并肩工作,更合理。 Claude Code 把这个做成了一个简洁、优雅的命令行工具,改变了 AI 的样子。 它不再只是一个你要去访问的网站(像 Google 那样),而是一个"住"在你电脑上的小精灵、小幽灵。 这是一种和 AI 互动的新范式。 5. Vibe Coding 让编程变成了所有人的事 2025 年,AI 跨过了一个能力门槛。 你可以用英语描述,就能做出各种复杂的程序,甚至不用管代码长什么样。 Karpathy 在一条推文里随口说了"Vibe Coding"这个词,没想到它传得这么远。 Vibe Coding 让编程不再是专业人士的专利,任何人都可以做。 但更重要的是,它让专业人士也能写更多原本不会写的软件。 Karpathy 举了自己的例子。 他在 nanochat 项目里,用 Rust 写了个高效的 BPE 分词器,但他根本不懂那个级别的 Rust,全靠 Vibe Coding。 他还做了很多快速演示项目(menugen、llm-council、reader3、HN time capsule),甚至做了一些一次性的程序,就为了找一个 bug。 代码突然变得免费、短暂、可塑、用完就扔。 Vibe Coding 会改变软件的样子,也会改变工作的定义。 Karpathy 还提到了他之前写的文章《赋权于民:LLMs 如何颠覆技术扩散》。 和之前所有技术不同,普通人从大模型中获得的利益,远超专业人士、企业和政府。 6. Nano Banana 是大模型的 GUI Google 的 Gemini Nano Banana 是 2025 年最让人惊讶的模型之一。 Karpathy 觉得,大模型是下一个主要的计算范式,就像 1970、80 年代的计算机一样。 所以我们会看到类似的创新,原因也类似。 会有个人计算的等价物,会有微控制器(认知核心)的等价物,会有互联网(智能体网络)的等价物。 在交互界面上,和大模型"聊天",就像 1980 年代在控制台输命令。 文本是计算机和大模型喜欢的原始格式,但不是人喜欢的。 人其实不爱读文字,太慢太累。 人喜欢视觉化、空间化的信息,所以传统计算机发明了 GUI。 大模型也应该用我们喜欢的格式说话:图像、信息图、幻灯片、白板、动画、视频、网页应用。 早期版本是 emoji 和 Markdown,它们是"装饰"文本的方式,用标题、粗体、斜体、列表、表格让信息更容易消化。 但谁会真正构建大模型的 GUI? Nano Banana 是一个早期的提示。 重要的是,它不只是生成图像,而是把文本生成、图像生成和世界知识,都缠在模型权重里,形成联合能力。 最后的话 Karpathy 说,2025 年的大模型,既比他预期的聪明很多,又比他预期的笨很多。 但它们非常有用,行业连它们 10% 的潜力都还没挖出来。 有太多想法可以试,这个领域在概念上还很开放。 他在今年的 Dwarkesh 播客里说过一句话,我觉得很有意思:他同时相信两件看起来矛盾的事,我们会看到快速且持续的进步,但同时还有大量工作要做。 坐稳了。

喜欢摇滚乐、爱钓鱼的PM 网站:https://t.co/vnUpLt752o

avatar for 向阳乔木
向阳乔木
Sun Dec 21 15:39:21
I don’t understand why Codex doesn’t copy Claude Code’s interface. The Claude Code interface (plan mode, ask to edit, edit without permission) is so strictly superior to begging Codex to please, please, please, come up with a plan without making any edits

I don’t understand why Codex doesn’t copy Claude Code’s interface. The Claude Code interface (plan mode, ask to edit, edit without permission) is so strictly superior to begging Codex to please, please, please, come up with a plan without making any edits

modeling language at @allen_ai

avatar for finbarr
finbarr
Sun Dec 21 15:36:45
RT @YouJiacheng: $142M compute in 9 months.
$15.8M/month.
using $2/GPU/h rate, that's 7.9M GPU hours, or 11k GPUs equivalent. https://t.co/…

RT @YouJiacheng: $142M compute in 9 months. $15.8M/month. using $2/GPU/h rate, that's 7.9M GPU hours, or 11k GPUs equivalent. https://t.co/…

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Sun Dec 21 15:32:45
me before coffee: “wow I’m so tired this is going to be such a tough day, I’m not sure I can do anything”

me after coffee: “I’m ready to take over the world”

me before coffee: “wow I’m so tired this is going to be such a tough day, I’m not sure I can do anything” me after coffee: “I’m ready to take over the world”

📈 Leading Growth @GroqInc 📌 Prev @a16z @HubSpot @TheHustle 💻 Chronically online: https://t.co/AkbwhoTr0K 📘 Wrote https://t.co/w1DBDrOZdI 🎙 Podcast at @sydlis 👇

avatar for Steph Smith
Steph Smith
Sun Dec 21 15:29:25
RT @cloud11665: A good thought experiment is how do you count something like an IMO gold medal by the METR standard - it is a task that tak…

RT @cloud11665: A good thought experiment is how do you count something like an IMO gold medal by the METR standard - it is a task that tak…

making gradients flow • eXperiments lab

avatar for tokenbender
tokenbender
Sun Dec 21 15:28:54
SpaceX was founded in 2002. If you remember watching this moment thirteen years later and thinking it would quell the naysayers as I did, we were wrong. Most of the world ignored it, even the tech world.

I still remember how many smart people in 2019 and 2020 said Starlink was “impossible.” Not that it was hard, but that it would never happen.

You will always feel late, but we are so, so early.

SpaceX was founded in 2002. If you remember watching this moment thirteen years later and thinking it would quell the naysayers as I did, we were wrong. Most of the world ignored it, even the tech world. I still remember how many smart people in 2019 and 2020 said Starlink was “impossible.” Not that it was hard, but that it would never happen. You will always feel late, but we are so, so early.

Co-Founder, American Dynamism. General Partner @a16z. Catholic. Mother. American. 🇺🇸 🚀💪

avatar for Katherine Boyle
Katherine Boyle
Sun Dec 21 15:25:14
  • Previous
  • 1
  • More pages
  • 203
  • 204
  • 205
  • More pages
  • 5634
  • Next