LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

张小珺和李想的3小时长谈的完整版我刚看完,信息量极大。这场对话其实发生在半年前(2025年4月),按照 AI 圈的时间,很多内容其实已经有点变化了。

张小珺有个精妙的比喻:
> 这次,我把李想当作一个“CEO大模型”来提问。假设他是MoE模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。

李想给出的“回答”非常坦诚,甚至有些“反直觉”——不像跟罗永浩那场都是他的成长和创业的故事,也没有太多汽车相关,而更多的是围绕 AI 来谈的,甚至谈了怎么训练模型。

---

话题一:“信息工具” vs “生产工具”:为什么AI还没让我们真正下班?

这是李想开场就抛出的一个尖锐观察:
“身边所有同事、朋友都讲人工智能怎么好,但大家工作时间并没有减少,工作成果也没有实质改善。”

为什么?

他提出了一个“熵增”和“熵减”的对比:
AI这东西,特别擅长搞“熵增”——它能处理海量信息,吞吐T级别的数据,把复杂性推到极致。
而人类呢?人类大脑天生是来搞“熵减”的——我们发明方法论、创造工具,本质是为了用最简单的规律,花最少的能量,解决问题。

现在的矛盾点在于,我们几乎所有人,都还只是把AI当成“信息工具”(比如Chatbot)或“辅助工具”(比如智能语音)。

- 信息工具:你问它答。它只是给你一个“Next Token”(下一个词),给你一个参考。这非但没帮你“熵减”,反而增加了海量的、甚至带有幻觉的“无效信息”。
- 辅助工具:帮你调个导航、查个美团。它提升了现有体验,但你还是离不开它。

李想认为,AI真正的爆发点,在于它必须进化成“生产工具”。

什么是“生产工具”?他给了一个极简的定义:“知行合一”。

它不能只“知道”(知),它必须能“行动”(行)。它得能真正替代我,完成专业工作,解决我工作中最重要的那8小时。

他举例,像Cursor或Deep Research,他的同事开始自己掏钱付费了。为什么?因为这些工具开始“动手”了,它们在真正地“做”工作,而不只是“聊”工作。

这引出了他对Agent的最终评判标准:Agent的唯一意义,就是成为“生产工具”。一个只会聊天、不会动手的Agent,价值是极其有限的。

---

话题二:向DeepSeek学什么?反人性的“最佳实践”

这场对话中,李想毫不掩饰的表达了对DeepSeek及其创始人梁文锋的赞赏。DeepSeek的开源,让理想VLA(视觉语言行动模型)的语言部分研发“进度加快了9个月”。理想后来把自己的操作系统开源,很大程度上就是出于对DeepSeek的“感谢”。

那么,DeepSeek到底做对了什么?

李想的总结是:“它极简地运用了人类最佳实践。”

他拆解了两种“最佳实践”:

第 1 种是做能力(研发)的最佳实践:

- 第一步:搞研究 (Research)
- 第二步:搞研发 (Development)
- 第三步:能力表达 (Expressing Capability)
- 第四步:变成业务价值 (Business Value)
- 我们常犯的错:直接跳到第二步“搞研发”,忘了第一步“搞研究”。

第 2 种是做业务(推理)的最佳实践:

- 第一步:索引分析 (Analysis)
- 第二步:确定目标 (Goal Setting)
- 第三步:涌现策略 (Strategy)
- 第四步:反思反馈 (Feedback/Review)
- 我们常犯的错:遇到问题只想改第三步“策略”,却忘了重新做第一步“分析”、第二步“定目标”和第四步“复盘”。

严格遵循这些步骤,其实是“反人性”的。人性总是想走捷径,想随心所欲。而一个卓越的组织,就是要和这种人性对抗。

他认为梁文锋就是这种“自律”和“坚守最佳实践”的化身。

---

话题三:解密VLA:我们是如何“造”一个司机的?

这是全篇“技术专家”模块最硬核的部分。当别人还在谈论端到端时,李想已经在详细拆解他们下一代的VLA(Vision-Language-Action,视觉-语言-行动)架构了。

他把辅助驾驶的进化分成了三个阶段,这个比喻非常传神:

第一个阶段是规则算法阶段:像“昆虫智能”。比如蚂蚁,严格依赖高精地图(信息素),规则定得死死的,没法泛化。

第二个阶段是端到端阶段:像“哺乳动物智能”。比如马戏团的动物学骑车,它能模仿,但它不理解物理世界。

第三个阶段是VLA阶段:追求“人类智能”。它不仅要看(Vision),还要理解(Language,包括推理、思维链),并且能执行(Action)。

那么,这个“人类司机”是怎么“造”出来的?李想给出了一个通俗的“三步训练法”:

第一步:预训练 (VL基座) —— 仿佛“上学学知识”

目标是让模型理解世界。

用什么数据训练呢?

不仅用普通语料,还要用理想独有的三类数据:
1.  3D Vision数据(物理世界)。
2.  高清2D Vision数据(比如看懂导航地图,清晰度比开源的高10倍)。
3.  VL联合语料(最关键的,比如“看到这个导航”+“人类做了这个判断”的组合数据)。

然后呢?

把这个云端320亿参数的“博士”大模型,蒸馏成一个车端32亿参数的“专家”MoE模型,保证在车上能跑得动。

第二步:后训练 (加入Action) —— 仿佛“上驾校学车”

目标是把“知识”变成“行动”,进行模仿学习。

怎么训练呢?

学习人类司机的操作,让VLA模型知道看到什么、理解了什么之后,应该做出什么动作(Action)。

第三步:强化训练 (RL) —— 仿佛“上路实际开”

目标是开得跟人一样好,甚至比人更好。

怎么做训练呢?

1.  RLHF(人类反馈):用人类的接管、驾驶习惯来“对齐”,让它开得像个“老司机”,而不是“马路杀手”。

2.  纯RL(世界模型):在模拟器(世界模型)里疯狂跑,用“舒适性”、“交通规则”、“是否碰撞”作为奖惩标准,让它自己“悟”,开得比人类平均值还好。

通过这三步,一个“VLA司机大模型”就诞生了。

李想认为交通领域会是VLA最早落地的场景。而且,未来不会有“通用Agent”,只会有无数个“专业Agent”(比如司机、医生、律师),而它们会运行在一个统一的“Agent OS(智能体操作系统)”上。

---

话题四:理想的终局:一家“AGI终端公司”

这是“战略专家”模块的思考。

理想这家公司,组织能力在学谁?

李想划出的路线是:
1. 百亿收入阶段:学丰田、通用(流程)、谷歌(OKR)。
2. 千亿收入阶段:学华为(IPD、组织流程)。
3. 迈向万亿(1000亿美金)阶段:必须学苹果。

学苹果什么?

学它从一个电脑公司,拓展成音乐播放器公司、手机公司、服务生态公司的能力。

基于此,李想给出了理想的终极答案。当被问到“理想是谁”时,他不再只说汽车,而是给出了一个极其清晰的定义:

“到2030年,我们希望能够成为全球领先的人工智能终端企业。”

他做了个类比:
- PC时代:有终端公司(苹果)和平台公司(微软)。
- 移动互联网时代:有终端公司(苹果)和平台公司(谷歌)。
- AGI时代:也必然会有平台公司(如OpenAI),和终端公司。

理想,要做的就是AGI时代的苹果。

他认为,汽车是第一个真正意义上的“AGI终端”,因为它同时具备四个要素:
1. 360°物理感知;
2. 认知决策;
3. 行动能力;
4. 反思反馈。

但理想不会止步于汽车。当规模达到5000亿以上,他们必须像苹果做iPhone一样,去探索其他(符合上述4要素的)AGI终端,比如家庭、穿戴设备。

对于“摊子铺太大”的质疑,李想的回应很直接:“如果我们有1000多亿收入……做这些事情就是合理的……太划算了,干嘛不做?”

---

话题五:从“改变”到“成长”:能量、智慧与亲密关系

这是整场对话我个人最喜欢的部分,它关于“人”。

李想分享了他最重要的一个管理“心法”:“人是很难‘改变’的,但人是愿意‘成长’的。”

所以,他做管理时会“顺着人性去说,逆着人性去做”。话要说得顺人性(我们来一起“成长”),事要做得逆人性(严格执行“最佳实践”)。

他还分享了一个核心概念:“能量”。

他认为,一个组织的核心,是构建一个3-7人的“能量体”(核心合伙人团队)。这个团队必须形成“更强的大脑”(一起决策)和“更强的心脏”(相互支撑)。

如何构建这种能量?

他给出的答案来自他做父亲的体验:
“在亲密关系里,你要大胆表达自己的需求……我需要他们(家人、同事)超过了他们需要我。”

他发现,当你表达“我需要你”时,能量就开始流动了。因为所有人都渴望“被需要”。

这引出了他对AI时代的终极思考:AI负责“智能”,人类负责“智慧”。

- 智能(能力):AI可以无限提升。

- 智慧(关系):李想定义,“智慧就是我们和万物的关系”——你和自己的关系,你和他人的关系,你和自然的关系。

AI的终极价值是什么?是把人类从那些消耗能量、不产生“智慧”的低价值劳动(比如打邀约电话)中解放出来,让我们有时间去做真正“熵减”的、有能量的事情——去处理“关系”,去提升“智慧”。

这或许就是“AI与人的关系”这个母题的答案。

访谈的文字链接:

张小珺和李想的3小时长谈的完整版我刚看完,信息量极大。这场对话其实发生在半年前(2025年4月),按照 AI 圈的时间,很多内容其实已经有点变化了。 张小珺有个精妙的比喻: > 这次,我把李想当作一个“CEO大模型”来提问。假设他是MoE模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 李想给出的“回答”非常坦诚,甚至有些“反直觉”——不像跟罗永浩那场都是他的成长和创业的故事,也没有太多汽车相关,而更多的是围绕 AI 来谈的,甚至谈了怎么训练模型。 --- 话题一:“信息工具” vs “生产工具”:为什么AI还没让我们真正下班? 这是李想开场就抛出的一个尖锐观察: “身边所有同事、朋友都讲人工智能怎么好,但大家工作时间并没有减少,工作成果也没有实质改善。” 为什么? 他提出了一个“熵增”和“熵减”的对比: AI这东西,特别擅长搞“熵增”——它能处理海量信息,吞吐T级别的数据,把复杂性推到极致。 而人类呢?人类大脑天生是来搞“熵减”的——我们发明方法论、创造工具,本质是为了用最简单的规律,花最少的能量,解决问题。 现在的矛盾点在于,我们几乎所有人,都还只是把AI当成“信息工具”(比如Chatbot)或“辅助工具”(比如智能语音)。 - 信息工具:你问它答。它只是给你一个“Next Token”(下一个词),给你一个参考。这非但没帮你“熵减”,反而增加了海量的、甚至带有幻觉的“无效信息”。 - 辅助工具:帮你调个导航、查个美团。它提升了现有体验,但你还是离不开它。 李想认为,AI真正的爆发点,在于它必须进化成“生产工具”。 什么是“生产工具”?他给了一个极简的定义:“知行合一”。 它不能只“知道”(知),它必须能“行动”(行)。它得能真正替代我,完成专业工作,解决我工作中最重要的那8小时。 他举例,像Cursor或Deep Research,他的同事开始自己掏钱付费了。为什么?因为这些工具开始“动手”了,它们在真正地“做”工作,而不只是“聊”工作。 这引出了他对Agent的最终评判标准:Agent的唯一意义,就是成为“生产工具”。一个只会聊天、不会动手的Agent,价值是极其有限的。 --- 话题二:向DeepSeek学什么?反人性的“最佳实践” 这场对话中,李想毫不掩饰的表达了对DeepSeek及其创始人梁文锋的赞赏。DeepSeek的开源,让理想VLA(视觉语言行动模型)的语言部分研发“进度加快了9个月”。理想后来把自己的操作系统开源,很大程度上就是出于对DeepSeek的“感谢”。 那么,DeepSeek到底做对了什么? 李想的总结是:“它极简地运用了人类最佳实践。” 他拆解了两种“最佳实践”: 第 1 种是做能力(研发)的最佳实践: - 第一步:搞研究 (Research) - 第二步:搞研发 (Development) - 第三步:能力表达 (Expressing Capability) - 第四步:变成业务价值 (Business Value) - 我们常犯的错:直接跳到第二步“搞研发”,忘了第一步“搞研究”。 第 2 种是做业务(推理)的最佳实践: - 第一步:索引分析 (Analysis) - 第二步:确定目标 (Goal Setting) - 第三步:涌现策略 (Strategy) - 第四步:反思反馈 (Feedback/Review) - 我们常犯的错:遇到问题只想改第三步“策略”,却忘了重新做第一步“分析”、第二步“定目标”和第四步“复盘”。 严格遵循这些步骤,其实是“反人性”的。人性总是想走捷径,想随心所欲。而一个卓越的组织,就是要和这种人性对抗。 他认为梁文锋就是这种“自律”和“坚守最佳实践”的化身。 --- 话题三:解密VLA:我们是如何“造”一个司机的? 这是全篇“技术专家”模块最硬核的部分。当别人还在谈论端到端时,李想已经在详细拆解他们下一代的VLA(Vision-Language-Action,视觉-语言-行动)架构了。 他把辅助驾驶的进化分成了三个阶段,这个比喻非常传神: 第一个阶段是规则算法阶段:像“昆虫智能”。比如蚂蚁,严格依赖高精地图(信息素),规则定得死死的,没法泛化。 第二个阶段是端到端阶段:像“哺乳动物智能”。比如马戏团的动物学骑车,它能模仿,但它不理解物理世界。 第三个阶段是VLA阶段:追求“人类智能”。它不仅要看(Vision),还要理解(Language,包括推理、思维链),并且能执行(Action)。 那么,这个“人类司机”是怎么“造”出来的?李想给出了一个通俗的“三步训练法”: 第一步:预训练 (VL基座) —— 仿佛“上学学知识” 目标是让模型理解世界。 用什么数据训练呢? 不仅用普通语料,还要用理想独有的三类数据: 1. 3D Vision数据(物理世界)。 2. 高清2D Vision数据(比如看懂导航地图,清晰度比开源的高10倍)。 3. VL联合语料(最关键的,比如“看到这个导航”+“人类做了这个判断”的组合数据)。 然后呢? 把这个云端320亿参数的“博士”大模型,蒸馏成一个车端32亿参数的“专家”MoE模型,保证在车上能跑得动。 第二步:后训练 (加入Action) —— 仿佛“上驾校学车” 目标是把“知识”变成“行动”,进行模仿学习。 怎么训练呢? 学习人类司机的操作,让VLA模型知道看到什么、理解了什么之后,应该做出什么动作(Action)。 第三步:强化训练 (RL) —— 仿佛“上路实际开” 目标是开得跟人一样好,甚至比人更好。 怎么做训练呢? 1. RLHF(人类反馈):用人类的接管、驾驶习惯来“对齐”,让它开得像个“老司机”,而不是“马路杀手”。 2. 纯RL(世界模型):在模拟器(世界模型)里疯狂跑,用“舒适性”、“交通规则”、“是否碰撞”作为奖惩标准,让它自己“悟”,开得比人类平均值还好。 通过这三步,一个“VLA司机大模型”就诞生了。 李想认为交通领域会是VLA最早落地的场景。而且,未来不会有“通用Agent”,只会有无数个“专业Agent”(比如司机、医生、律师),而它们会运行在一个统一的“Agent OS(智能体操作系统)”上。 --- 话题四:理想的终局:一家“AGI终端公司” 这是“战略专家”模块的思考。 理想这家公司,组织能力在学谁? 李想划出的路线是: 1. 百亿收入阶段:学丰田、通用(流程)、谷歌(OKR)。 2. 千亿收入阶段:学华为(IPD、组织流程)。 3. 迈向万亿(1000亿美金)阶段:必须学苹果。 学苹果什么? 学它从一个电脑公司,拓展成音乐播放器公司、手机公司、服务生态公司的能力。 基于此,李想给出了理想的终极答案。当被问到“理想是谁”时,他不再只说汽车,而是给出了一个极其清晰的定义: “到2030年,我们希望能够成为全球领先的人工智能终端企业。” 他做了个类比: - PC时代:有终端公司(苹果)和平台公司(微软)。 - 移动互联网时代:有终端公司(苹果)和平台公司(谷歌)。 - AGI时代:也必然会有平台公司(如OpenAI),和终端公司。 理想,要做的就是AGI时代的苹果。 他认为,汽车是第一个真正意义上的“AGI终端”,因为它同时具备四个要素: 1. 360°物理感知; 2. 认知决策; 3. 行动能力; 4. 反思反馈。 但理想不会止步于汽车。当规模达到5000亿以上,他们必须像苹果做iPhone一样,去探索其他(符合上述4要素的)AGI终端,比如家庭、穿戴设备。 对于“摊子铺太大”的质疑,李想的回应很直接:“如果我们有1000多亿收入……做这些事情就是合理的……太划算了,干嘛不做?” --- 话题五:从“改变”到“成长”:能量、智慧与亲密关系 这是整场对话我个人最喜欢的部分,它关于“人”。 李想分享了他最重要的一个管理“心法”:“人是很难‘改变’的,但人是愿意‘成长’的。” 所以,他做管理时会“顺着人性去说,逆着人性去做”。话要说得顺人性(我们来一起“成长”),事要做得逆人性(严格执行“最佳实践”)。 他还分享了一个核心概念:“能量”。 他认为,一个组织的核心,是构建一个3-7人的“能量体”(核心合伙人团队)。这个团队必须形成“更强的大脑”(一起决策)和“更强的心脏”(相互支撑)。 如何构建这种能量? 他给出的答案来自他做父亲的体验: “在亲密关系里,你要大胆表达自己的需求……我需要他们(家人、同事)超过了他们需要我。” 他发现,当你表达“我需要你”时,能量就开始流动了。因为所有人都渴望“被需要”。 这引出了他对AI时代的终极思考:AI负责“智能”,人类负责“智慧”。 - 智能(能力):AI可以无限提升。 - 智慧(关系):李想定义,“智慧就是我们和万物的关系”——你和自己的关系,你和他人的关系,你和自然的关系。 AI的终极价值是什么?是把人类从那些消耗能量、不产生“智慧”的低价值劳动(比如打邀约电话)中解放出来,让我们有时间去做真正“熵减”的、有能量的事情——去处理“关系”,去提升“智慧”。 这或许就是“AI与人的关系”这个母题的答案。 访谈的文字链接:

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Thu Oct 30 05:32:23
theres a certain company im v glad exists b/c its my only remaining litmus test for if someone in sf is smart or not

theres a certain company im v glad exists b/c its my only remaining litmus test for if someone in sf is smart or not

no further comments will be supplied, i just dont know how to shut up

avatar for near
near
Thu Oct 30 05:30:18
Thread

Thread

I built a Cursor-like experience plugin for Neovim: avante.nvim

avatar for yetone
yetone
Thu Oct 30 05:29:04
帮转,

老板懂技术,不PUA,这点很重要,能有效降低内耗。

这样的老板,值得年会给他磕个头。

帮转, 老板懂技术,不PUA,这点很重要,能有效降低内耗。 这样的老板,值得年会给他磕个头。

行道途中。非求速成,惟求通达。 2023 年扎进AI ,打通Know-How,不少赚钱项目,踩过坑,也见过光。 围城里待得够久了,出来聊聊世界,聊聊技术、聊聊赚钱。

avatar for 凡人小北
凡人小北
Thu Oct 30 05:26:00
RT @qinbafrank: 如果觉得中美元首会晤不及预期,那有可能是你预期太高了。中美聊完了,实际上聊了100分钟川普之前预计3-4小时,很多人认为低于预期,刚才市场小幅跳水也是源于此。其实如果理解中美谈判的差异https://t.co/dR8iSQpO4f后,就能理解这次…

RT @qinbafrank: 如果觉得中美元首会晤不及预期,那有可能是你预期太高了。中美聊完了,实际上聊了100分钟川普之前预计3-4小时,很多人认为低于预期,刚才市场小幅跳水也是源于此。其实如果理解中美谈判的差异https://t.co/dR8iSQpO4f后,就能理解这次…

Software engineer, 🎙️《捕蛇者说》播客主播 @pythonhunter__ https://t.co/LGIKFkoQbn - Mac 上最好的划词 AI 搜索 & 翻译 可通过 Telegram/Gmail 找我,ID 同名

avatar for laike9m
laike9m
Thu Oct 30 05:22:21
Thread

Thread

We're sharing/showcasing best of @github projects/repos. Follow to stay in loop. Promoting Open-Source Contributions. UNOFFICIAL, but followed by github

avatar for GitHub Projects Community
GitHub Projects Community
Thu Oct 30 05:15:55
  • Previous
  • 1
  • More pages
  • 1793
  • 1794
  • 1795
  • More pages
  • 2127
  • Next