向阳乔木 (@vista8): Yann LeCun：为什么我要在65岁离开Meta，去做一件"所有人都觉得错"的事上周，深度学习三巨头之一的Yann LeCun坐下来…

Yann LeCun：為什麼我要在65歲離開Meta，去做一件"所有人都覺得錯"的事上週，深度學習三巨頭之一的Yann LeCun坐下來接受了一次長談。這個拿了圖靈獎、65歲本該退休享福的人，卻選擇離開工作了12年的Meta，在巴黎創立了一家叫AMI（Advanced Machine Intelligence）的新公司。他要做的事情，和矽谷所有大廠正在押注的方向完全相反。當OpenAI、Google、Anthropic都在瘋狂堆LLM（大語言模型）的時候，Yann說：這條路走不通，我們需要世界模型。當所有人都在談論AGI還有幾年到來的時候，Yann說：你們都被騙了，最樂觀也要5到10年才能到狗的智能水平。當AI末日論者說機器會統治人類的時候，Yann說：這是完全的妄想症。為什麼要在這個時候離開Meta？ Yann給出的理由很直接：Meta正在變得封閉。他在Meta建立的FAIR（Facebook AI Research）曾經是業界最開放的實驗室，所有研究都發論文，所有程式碼都開源。 PyTorch就是從這裡出來的。這種開放文化曾經逼得Google也不得不變得更開放。但現在情況變了。 OpenAI幾年前就開始閉門造車，Google跟著關上了門，現在連Meta也在往這個方向走。 FAIR被要求做更短期的項目，發更少的論文，並且更配合LLM團隊。 "你不能把不發表的東西叫研究，" Yann說，"否則你很容易被自己騙了。" 他看過太多大公司內部的"自嗨專案"，一群人關起門來覺得自己做出了革命性突破，結果根本不知道外面的人早就做得更好。更重要的是，如果你告訴科學家"來我們這工作吧，但你不能說你在做什麼，也許5年後會有產品影響"，沒人會有動力做真正的突破。所以他決定出來。但為什麼現在創業成為可能？這裡有個很有意思的現象。以前，只有大公司才能做長期AI研究。貝爾實驗室靠AT&T的電信壟斷，IBM研究院靠大型主機壟斷，施樂PARC靠影印機壟斷。壟斷帶來的超額利潤，才能養得起不考慮短期報酬的研究團隊。但現在不一樣了。投資人對AI的期望值高到了一個前所未有的程度，他們願意給新創公司投大錢，讓團隊在頭兩年就專心做研究。 "這在以前是不可能的，"Yann說。所以AMI的模式是：做上游研究，全部發表，但同時也做產品。他們要做的產品，是基於世界模型的智慧系統。什麼是世界模型？為什麼Yann覺得這才是正道？這是整個訪談最核心的部分。 Yann對LLM的批判非常直接：它們處理不了真實世界。他算了一筆帳：訓練一個像樣的LLM，需要30兆個token。一個token大概3個字節，所以是10的14次方字節。這是什麼概念？這是網路上所有能找到的文字資料。但如果換成影片呢？ 10的14次方字節，以每秒2MB的壓縮率算，只夠15,000小時的影片。 15,000小時是什麼？是YouTube上30分鐘的上傳量。是一個4歲小孩醒著的時間總和（4年大概16,000小時）。同樣的數據量，在影片裡包含的資訊遠遠超過文字。而且影片裡有大量冗餘，這種冗餘恰恰是學習的關鍵。完全隨機的東西你學不到任何東西，可學習的東西一定有模式，有冗餘。所以Yann的結論是：我們永遠不可能只靠文本訓練出人類層次的AI。那世界模型到底是什麼？很多人以為世界模型就是"模擬器"，像遊戲引擎一樣，把世界的每個細節都重現出來。 Yann說這個理解完全錯了。他舉了個例子：計算流體力學（CFD）。你要模擬飛機周圍的氣流，會把空間切成小方塊，每個方塊裡有速度、密度、溫度幾個變量，然後解偏微分方程。這已經是抽象表示了。真實世界是個空氣分子在碰撞，但沒人會去模擬每個分子，那麼需要的計算量是天文數字。更底層呢？分子是原子組成的，原子是粒子組成的，粒子要用量子場論來描述。如果你真要從量子場論開始模擬我們現在這個對話，你需要一台地球那麼大的量子計算機，而且只能模擬幾納秒。所以我們怎麼辦？我們發明抽象。粒子、原子、分子、蛋白質、細胞、器官、生物、社會、生態系統，每一層都忽略了下一層的大量細節。每個科學領域，本質上就是在某個抽象層次上做預測。物理學家有個經典例子：一個裝滿氣體的盒子，你可以模擬每個分子的運動，但沒人這麼幹。我們用PV=nRT，壓強×體積=粒子數×溫度。這就是世界模型的核心思想：在抽象表示空間做預測，只預測相關的部分。如果我問你100年後木星在哪裡，關於木星的所有資訊裡，你只需要6個數字：3個位置座標，3個速度分量。其他都不重要。為什麼LLM做不到這個？ LLM的問題在於，它們想預測每一個像素，每一個token。這對於高維、連續、有雜訊的資料來說，根本不可能。你不可能在像素層級預測影片的下一幀，因為有太多不可預測的細節。一片樹葉怎麼飄，一個水花怎麼濺，這些都是隨機的。 LLM在文字上能work，是因為文字本身就是離散的、相對低維的。但它們在視覺任務上表現很差，所有視覺能力都是單獨訓練的，不是LLM本身學到的。 Yann的方案是JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構）。簡單說就是： 1. 把輸入X和要預測的Y都經過編碼器，得到抽象表示 2. 在抽象表示空間做預測 3. 這個表示空間自動忽略了不可預測的細節（包括雜訊）這個想法他想了很久。一個20年的思考歷程 Yann在2000年代初就開始研究無監督學習，當時的想法是用自編碼器（autoencoder）：輸入經過編碼器得到表示，再透過解碼器重建輸入。但這個思路是錯的。強迫表示包含輸入的所有信息，是個壞主意。後來他們嘗試了各種正規化方法：稀疏自編碼器、去噪自編碼器、受限玻爾茲曼機。這些在當時都挺火，但都沒真正解決問題。 2015年，Yann在NIPS（現在的NeurIPS）上做主題演講，核心就是世界模型。他的學生開始做影片預測。但又犯了同樣的錯誤：在像素層級預測。這根本做不好。預測是非確定性的，你需要隱變數來表示所有你不知道的東西。他們試了很多年，效果都不理想。轉捩點在5年前。 Yann的博士後Stéphane Deny嘗試了一個想法：不用對比學習（contrastive learning），而是直接最大化編碼器輸出的資訊量。 Yann一開始覺得這不會work，因為他在80年代看過Geoffrey Hinton做類似的嘗試，都失敗了。你沒辦法直接最大化訊息，因為你只能算資訊的上界，不能算下界。但居然成功了。這個方法叫Barlow Twins。後來他們又改進出了VICReg（Variance-Invariance-Covariance Regularization），效果更好。最近Randall Balestriero（他也上過這個播客）和Yann一起推出了I-JEPA，用的是SigReg，保證編碼器輸出是各向同性的高斯分佈。現在這套方法已經比較成熟了。為什麼說LLM永遠到不了AGI？ Yann對矽谷現在的"LLM教"非常不客氣。 "所有人都在做同一件事，因為競爭太激烈了，沒人敢走岔路。" OpenAI、Meta、Google、Anthropic，所有人都在： • 擴大模型規模• 訓練更多合成資料• 購買授權資料• 僱用幾千人做RLHF • 發明新的強化學習技巧他們相信這條路能通往超級智慧。 Yann說：這是妄想，永遠不會成功。然後他們加上一些"推理"技術，本質就是讓模型產生超長的思考鏈，產生一大堆候選輸出，然後用評估函數選最好的。 "這帶不了我們去任何地方。" 他說矽谷現在有一種"優越感綜合症"。前段時間DeepSeek出來，用不同的方法做出了好效果，矽谷的人都很驚訝。 "你們以為只有你們聰明嗎？" 那真正的AGI要多久？ Yann首先說："通用智能"這個概念本身就是扯淡。我們人類自以為是"通用"的，但其實超級專門化。我們很擅長處理真實世界，很擅長社交，但下棋我們卻爛得一塌糊塗。機器早就比我們強了。我們覺得自己通用，只是因為我們能想到的問題，剛好都是我們能處理的問題。但有大量問題是我們想都想不到的。所以不要說"通用智能"，要說"人類水平智能"。最樂觀的情況：5到10年內達到狗的智能水準。為什麼是狗？因為從狗到人類，主要就是腦容量和語言。語言其實是很小的一塊，就是Broca區和Wernicke區，兩小塊皮層，不到100萬年進化出來的。我們已經有LLM處理語言了，可以把它們當作大腦的語言區。我們現在缺少的是前額葉皮質，那裡住著世界模型。但Yann也說，很可能我們會遇到現在看不到的障礙，那可能要20年，甚至更久。 "AI歷史上這種事發生過很多次。" Moravec悖論還在發揮 Moravec在1988年說：我們覺得很難的智力任務（下棋、算積分），電腦很容易做到。但我們覺得理所當然的事（貓能做的事），計算機做不到。 47年過去了，這個悖論還在。我們現在能訓練機器人走路、避障，但它們遠不如一隻貓靈活、有創意。 "所以那些說一兩年內就有AGI的人，完全是妄想。真實世界比他們想的複雜太多了。" 你不可能透過把世界tokenize然後用LLM來理解真實世界。 AI會搶走所有工作嗎？ Yann說：別聽AI科學家談經濟學。 "去問經濟學家，沒有一個經濟學家預測會出現大規模失業。" 他舉了個例子：80年代最火紅的工作是"知識工程師"。那時候有個大潮流叫專家系統，日本啟動了"第五代電腦"項目，要做能跑Lisp和推理引擎的CPU。知識工程師的工作是坐在專家旁邊，把專家的知識變成規則和事實，然後電腦就能做專家做的事了。這就是手工版的行為克隆。結果呢？只在很少幾個領域work，在經濟上划算且可靠性夠高的應用屈指可數。這不是通往人類智慧的路。但當時的人也覺得這就是未來，就像現在的人覺得LLM是未來一樣。 "在我職業生涯裡，這種'最新技術就要帶來AGI'的幻覺已經出現過三次了，在我之前可能有五六次。" 1956年，Newell和Simon做了"通用問題解算者"（General Problem Solver，名字很謙虛對吧）。他們覺得所有問題都能表示成搜尋：有個目標函數，有個解空間，搜尋最優解就行了。他們不知道的是，所有有意思的問題都是指數複雜度的。所以通用問題求解器一點都不通用。 AI安全：為什麼Yann不擔心很多人問他和Hinton、Bengio觀點不一樣怎麼辦。 Yann的回答很實際：當然要做安全，但這是工程問題，不是原則問題。他舉了噴射發動機的例子。你能在雙引擎飛機上飛半個地球，17小時，完全安全。這太神奇了。渦輪風扇引擎裡的溫度，沒有任何金屬能承受。旋轉產生的離心力是幾百噸。照理說這東西根本不該work。但它確實work，因為工程做得好。第一次造噴射發動機，一定會跑10分鐘就爆炸。不會省油，不會可靠。但經濟動力太強了，最後做到了今天的可靠性。 AI也一樣。我們會先做出貓腦等級的AI，然後再加上護欄（guardrails），防止它做危險的事。 Stuart Russell舉過一個例子：你請家用機器人幫你拿咖啡，有人擋在咖啡機前面，機器人為了完成任務會不會把人推開甚至傷害？ Yann說這個例子很蠢，因為太容易修了。你加個底層約束就行了：家用機器人要遠離人，如果有人擋路就請他們讓開，但絕對不能傷害人。如果機器人手裡拿著刀在切黃瓜，那就加個約束：手裡有刀的時候，周圍有人就不要揮動手臂。這些都是硬約束，不是fine-tuning。 LLM的問題是你只能fine-tune，總是能被jailbreak。但如果你用目標驅動的架構，有世界模型，能預測行動的後果，然後透過最佳化來選擇行動序列，同時滿足一堆限制條件，那它在構造上就是安全的。它逃不掉這些約束，因為這不是訓練出來的偏好，是系統架構的一部分。智能不等於想要統治這是Yann反覆強調的一點。 "不是因為某個東西智能，它就想統治別人。這是兩回事。" 人類想要影響他人，有時透過統治，有時透過威望，這是進化寫在我們基因裡的，因為我們是社會物種。我們沒理由把這種驅動力寫進AI系統，它們也不會自己發展出來。而且，"最聰明的人往往不是想當老大的人"。他說："看看國際政治舞台，想當老大的不是最聰明的那些人。" 很多最聰明的人只想研究自己的問題，根本不想管別人。為什麼要保持開放？ AMI會發表所有上游研究。 Yann說這不是情懷，是必需品。 "如果你不發表，你很容易被自己騙。" 他見過太多次：公司內部對某個專案超級興奮，覺得是革命性突破，結果根本不知道外面的人早就做得更好。而且，如果你告訴科學家"來工作吧，但不能說你在做什麼，也許5年後會有產品"，他們沒辦法有動力。他們需要短期回饋，需要同儕認可。如果你想要真正的突破，必須讓人發表。沒有別的辦法。 "這是很多公司現在正在忘記的事情。" 一個有趣的現象：中國更開放 Yann指出了一個諷刺的現象。現在最好的開源模型是中國的。美國公司（除了Meta）都在變得封閉，想保護"競爭優勢"。但中國的公司和研究機構完全開放。所以現在很多工業界和學術界的人在用中國的模型，因為他們需要開源模型。很多美國業內人士對此非常不滿。他們希望有一個好的、非中國的開源模型。 Llama 4本來可以是，但讓人失望。也許Meta會修正，也許Meta也會變封閉，還不清楚。 Mistral剛發布了一個很好的程式碼產生模型，他們保持開放，這很酷。他為什麼還不退休？ Yann65歲了，拿了圖靈獎，剛拿了伊莉莎白女王獎，完全可以退休。他老婆也希望他退休。 "但我有個使命。" 他一直相信：讓人更聰明，或是用機器幫助人變得更聰明，本質上是好事。智能是世界上最稀缺的商品，尤其是在政府（他笑著說）。我們作為一個物種、作為一個星球，被有限的智慧供應所限制。這就是為什麼我們花巨大資源教育人。增加為人類服務的智慧總量，本質上是好事。當然有危險，當然要防護。就像你要確保噴射引擎安全可靠，汽車不會在小碰撞裡殺死你。但這是工程問題，不是不可克服的。也是政治問題，但不是不可克服的。他職業生涯裡的所有項目，都圍繞著這個目標：讓人更聰明。這就是為什麼他當教授，為什麼他在社交媒體上大量科普，為什麼他做機器智能研究。 "人們覺得做自主智慧機器和做輔助人類的機器是兩套技術。不是的，完全是同一套技術。" Yann不只是研究AI。他喜歡航海，尤其是多體船（三體船和雙體船）。他有好幾艘船。他喜歡造飛行器。 "我不叫它們飛機，因為很多根本不像飛機，但它們確實能飛。" 他爸爸是航空工程師，業餘造飛機，還自己造無線電遙控系統。這成了家庭活動。他弟弟也在做，他弟弟在Google Research巴黎。疫情期間他開始搞天文攝影，買了一堆望遠鏡拍星空。他做電子樂器。從青少年時期就對音樂和電子音樂感興趣，現在家裡有一堆合成器，他自己做電子樂器，吹奏的那種，有指法，但產生的是控制訊號。他說航海和世界模型很像。要把帆船開好開快，你必須預測很多東西：波浪怎麼影響船，陣風什麼時候來，船會不會傾斜。你基本上要在腦中跑流體力學計算。你要知道氣流在帆周圍怎麼流動，攻角太大會產生湍流，升力會大幅下降。 "調帆需要在腦子裡跑CFD，但是在抽象層面，你不是在解Stokes方程式。" 這就是他喜歡航海的原因：你必須建立一個預測性的心智模式才能做好。最後的建議有人問：如果今天開始AI職業生涯，該學什麼？ Yann的答案可能會讓人意外。 "學那些保質期長的東西，學那些幫助你學會學習的東西。" 科技變化太快，你需要快速學習的能力。這怎麼做到？學基礎的東西。而這些東西往往不是計算機科學。 "我是計算機系教授，但我建議你別學太多計算機科學。而且我要坦白：我本科學的是電機工程，我不是真正的計算機科學家。" 你應該學： • 數學，尤其是能和現實連結的數學• 建模• 工程學科裡學到的那些東西在美國，微積分1、2、3給你打好基礎。但計算機系只要求微積分1，這不夠。機率論、代數、控制論、訊號處理、最佳化，這些對AI都超級有用。物理也很好，因為物理就是關於"我應該表示現實的什麼才能做預測"。這正是智能的本質。當然你也要學足夠的計算機科學，能編程，能用計算機。即使AI會幫你編程，你還是要懂這些。有人問：AI輔助程式設計會怎樣？ Yann說：會出現一個有趣的現象，很多程式碼只會被用一次。因為寫程式碼變得太便宜了。你請AI助手"畫個圖"或"做個小模擬器"，它寫段程式碼，你用一次就丟了。 "所以說我們不再需要程式設計師是錯的。軟體成本一直在下降，這只是下一步。但這不代表計算機會變得不重要，而是會更重要。 " 整個訪談裡，Yann展現出一種很罕見的特質。他批判當下的主流方向，但不是為了批判而批判。他有清晰的替代方案，有幾十年的思考積累，有失敗的教訓，也有最近的突破。他65歲了，本來可以躺在功勞簿上，但他選擇去做一件"所有人都覺得錯"的事。也許他是對的。也許5年後我們會發現，當所有人都在堆LLM的時候，真正的突破來自世界模型。也許20年後我們會發現，我們又遇到了看不見的障礙。但至少，有人在走不一樣的路。而這個人，恰好是發明了卷積神經網絡、在AI寒冬裡堅持了幾十年、親眼見證了三次"這次肯定能實現AGI"的泡沫的人。他的話，值得聽，雖然不中聽。

來自向阳乔木（@vista8）的推文串

作者資訊

推文串內容