張小珺和李想的3小時長談的完整版我剛看完,資訊量極大。這場對話其實發生在半年前(2025年4月),按照AI 圈的時間,很多內容其實已經有點改變了。 張小珺有個精妙的比喻: > 這次,我把李想當作一個「CEO大模型」來提問。假設他是MoE模型,我在對話的前三個回合調用了他的三位「專家」:技術專家、策略專家、組織專家。而當談話深入後半程,我們開始討論人、能量、親密關係、記憶程序與人類的智慧。 李想給的「答案」非常坦誠,甚至有些「反直覺」——不像跟羅永浩那場都是他的成長和創業的故事,也沒有太多汽車相關,而更多的是圍繞AI 來談的,甚至談了怎麼訓練模型。 --- 主題一:「資訊工具」 vs 「生產工具」:為什麼AI還沒讓我們真正下班? 這是李想開場就拋出的一個尖銳觀察: “身邊所有同事、朋友都講人工智能怎麼好,但大家工作時間並沒有減少,工作成果也沒有實質改善。” 為什麼? 他提出了一個「熵增」和「熵減」的對比: AI這東西,特別擅長搞「熵增」──它能處理大量訊息,吞吐T層級的數據,把複雜性推到極致。 而人類呢?人類大腦天生就是來搞「熵減」的──我們發明方法論、創造工具,本質是為了用最簡單的規律,花最少的能量,解決問題。 現在的矛盾點在於,我們幾乎所有人,都還只是把AI當成「資訊工具」(例如Chatbot)或「輔助工具」(例如智慧語音)。 - 資訊工具:你問它答。它只是給你一個“Next Token”(下一個字),給你一個參考。這不但沒幫你“熵減”,反而增加了海量的、甚至帶有幻覺的“無效訊息”。 - 輔助工具:幫你調個導航、查個美團。它提升了現有體驗,但你還是離不開它。 李想認為,AI真正的爆發點,在於它必須進化成「生產工具」。 什麼是「生產工具」?他給了一個極簡的定義:「知行合一」。 它不能只「知道」(知),它必須能「行動」(行)。它得能真正取代我,完成專業工作,解決我工作中最重要的那8小時。 他舉例,像Cursor或Deep Research,他的同事開始自己掏錢付費了。為什麼?因為這些工具開始「動手」了,它們在真正地「做」工作,而不只是「聊天」工作。 這引出了他對Agent的最終評判標準:Agent的唯一意義,就是成為「生產工具」。只會聊天、不會動手的Agent,價值是極為有限的。 --- 主題二:向DeepSeek學什麼?反人性的“最佳實踐” 在這場對話中,李想毫不掩飾的表達了對DeepSeek及其創始人梁文鋒的讚賞。 DeepSeek的開源,讓理想VLA(視覺語言行動模型)的語言部分研發「進度加快了9個月」。理想後來把自己的作業系統開源,很大程度就是出於對DeepSeek的「感謝」。 那麼,DeepSeek到底做對了什麼? 李想的總結是:“它極簡地運用了人類最佳實踐。” 他拆解了兩種「最佳實踐」: 第1 種是做能力(研發)的最佳實務: - 第一步:搞研究(Research) - 第二步:搞研發(Development) - 第三步:能力表達(Expressing Capability) - 第四步:變成業務價值(Business Value) - 我們常犯的錯:直接跳到第二步“搞研發”,忘了第一步“搞研究”。 第2 種是做業務(推理)的最佳實務: - 第一步:索引分析(Analysis) - 第二步:確定目標(Goal Setting) - 第三步:湧現策略(Strategy) - 第四步:反思回饋(Feedback/Review) - 我們常犯的錯:遇到問題只想改第三步“策略”,卻忘了重新做第一步“分析”、第二步“定目標”和第四步“複盤”。 嚴格遵循這些步驟,其實是「反人性」的。人性總是想走捷徑,想隨心所欲。而一個卓越的組織,就是要和這種人性對抗。 他認為梁文鋒就是這種「自律」與「堅守最佳實踐」的化身。 --- 話題三:解密VLA:我們是如何「造」一個司機的? 這是全篇「技術專家」模組最硬派的部分。當別人還在談論端到端時,李想已經在詳細拆解他們下一代的VLA(Vision-Language-Action,視覺-語言-行動)架構了。 他把輔助駕駛的進化分成了三個階段,這個比喻非常傳神: 第一個階段是規則演算法階段:像「昆蟲智能」。例如螞蟻,嚴格依賴高精地圖(費洛蒙),規則定得死死的,沒辦法泛化。 第二個階段是端到端階段:像「哺乳動物智慧」。例如馬戲團的動物學騎車,它能模仿,但它不懂物理世界。 第三個階段是VLA階段:追求「人類智慧」。它不僅要看(Vision),還要理解(Language,包括推理、思考鏈),並且能執行(Action)。 那麼,這個「人類司機」是怎麼「造」出來的?李想給了一個通俗的「三步驟訓練法」: 第一步:預訓練(VL基座) —— 彷彿“上學學知識” 目標是讓模型理解世界。 用什麼資料訓練呢? 不只用普通語料,還要用理想獨有的三類數據: 1. 3D Vision資料(物理世界)。 2. 高畫質2D Vision資料(例如看懂導航地圖,清晰度比開源的高10倍)。 3. VL聯合語料(最關鍵的,例如「看到這個導航」+「人類做了這個判斷」的組合資料)。 然後呢? 把這個雲端320億參數的「博士」大模型,蒸餾成車端32億參數的「專家」MoE模型,保證在車上能跑得動。 步驟二:後訓練(加入Action) —— 彷彿“上駕校學車” 目標是把“知識”變成“行動”,進行模仿學習。 怎麼訓練呢? 學習人類駕駛的操作,讓VLA模型知道看到什麼、理解了什麼之後,應該做出什麼動作(Action)。 第三步:強化訓練(RL) —— 彷彿「上路實際開」 目標是開得跟人一樣好,甚至比人更好。 怎麼做訓練呢? 1. RLHF(人類回饋):用人類的接管、駕駛習慣來“對齊”,讓它開得像個“老司機”,而不是“馬路殺手”。 2. 純RL(世界模型):在模擬器(世界模型)裡瘋狂跑,用“舒適性”、“交通規則”、“是否碰撞”作為獎懲標準,讓它自己“悟”,開得比人類平均值還好。 透過這三步,一個「VLA司機大模型」就誕生了。 李想認為交通領域會是VLA最早落地的場景。而且,未來不會有“通用Agent”,只會有無數個“專業Agent”(例如司機、醫生、律師),而它們會運行在一個統一的“Agent OS(智能體操作系統)”上。 --- 主題四:理想的終局:一家“AGI終端公司” 這是「戰略專家」模組的思考。 理想這家公司,組織能力在學誰? 李想劃出來的路線是: 1. 百億收入階段:學習豐田、通用(流程)、Google(OKR)。 2. 千億收入階段:學華為(IPD、組織流程)。 3. 邁向兆(1000億美金)階段:必須學習蘋果。 學蘋果什麼? 學它從電腦公司,拓展成音樂播放器公司、手機公司、服務生態公司的能力。 基於此,李想給了理想的終極答案。當被問到「理想是誰」時,他不再只說汽車,而是給了一個極其清晰的定義: “到2030年,我們希望能夠成為全球領先的人工智慧終端企業。” 他做了個類比: - PC時代:有終端公司(蘋果)和平台公司(微軟)。 - 行動網路時代:有終端公司(蘋果)和平台公司(Google)。 - AGI時代:也必然會有平台公司(如OpenAI),和終端公司。 理想,要做的就是AGI時代的蘋果。 他認為,汽車是第一個真正意義上的“AGI終端”,因為它同時具備四個要素: 1. 360°物理感知; 2. 認知決策; 3. 行動能力; 4. 反思回饋。 但理想不會止步於汽車。當規模達到5000億以上,他們必須像蘋果做iPhone一樣,去探索其他(符合上述4要素的)AGI終端,例如家庭、穿戴式裝置。 對於“攤子舖太大”的質疑,李想的回應很直接:“如果我們有1000多億收入……做這些事情就是合理的……太划算了,幹嘛不做?” --- 話題五:從「改變」到「成長」:能量、智慧與親密關係 這是整場對話我個人最喜歡的部分,它是關於「人」。 李想分享了他最重要的一個管理“心法”:“人是很難'改變'的,但人是願意'成長'的。” 所以,他做管理時會「順著人性去說,逆著人性去做」。話說得順人性(我們來一起「成長」),事要做得逆人性(嚴格執行「最佳實踐」)。 他也分享了一個核心概念:「能量」。 他認為,一個組織的核心,是建構一個3-7人的「能量體」(核心合夥人團隊)。這個團隊必須形成「更強的大腦」(一起決策)和「更強的心臟」(相互支撐)。 如何建構這種能量? 他給的答案來自他做父親的經驗: “在親密關係裡,你要大膽表達自己的需求……我需要他們(家人、同事)超過了他們需要我。” 他發現,當你表達「我需要你」時,能量就開始流動了。因為所有人都渴望「被需要」。 這引出了他對AI時代的終極思考:AI負責“智能”,人類負責“智慧”。 - 智能(能力):AI可以無限提升。 - 智慧(關係):李想定義,「智慧就是我們和萬物的關係」-你和自己的關係,你和別人的關係,你和大自然的關係。 AI的終極價值是什麼?是把人類從那些消耗能量、不產生“智慧”的低價值勞動(比如打邀約電話)中解放出來,讓我們有時間去做真正“熵減”的、有能量的事情——去處理“關係”,去提升“智慧”。 這或許就是「AI與人的關係」這個母題的答案。 訪談的文字連結:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
