Yann LeCun:為什麼我要在65歲離開Meta,去做一件"所有人都覺得錯"的事 上週,深度學習三巨頭之一的Yann LeCun坐下來接受了一次長談。 這個拿了圖靈獎、65歲本該退休享福的人,卻選擇離開工作了12年的Meta,在巴黎創立了一家叫AMI(Advanced Machine Intelligence)的新公司。 他要做的事情,和矽谷所有大廠正在押注的方向完全相反。 當OpenAI、Google、Anthropic都在瘋狂堆LLM(大語言模型)的時候,Yann說:這條路走不通,我們需要世界模型。 當所有人都在談論AGI還有幾年到來的時候,Yann說:你們都被騙了,最樂觀也要5到10年才能到狗的智能水平。 當AI末日論者說機器會統治人類的時候,Yann說:這是完全的妄想症。 為什麼要在這個時候離開Meta? Yann給出的理由很直接:Meta正在變得封閉。 他在Meta建立的FAIR(Facebook AI Research)曾經是業界最開放的實驗室,所有研究都發論文,所有程式碼都開源。 PyTorch就是從這裡出來的。 這種開放文化曾經逼得Google也不得不變得更開放。 但現在情況變了。 OpenAI幾年前就開始閉門造車,Google跟著關上了門,現在連Meta也在往這個方向走。 FAIR被要求做更短期的項目,發更少的論文,並且更配合LLM團隊。 "你不能把不發表的東西叫研究," Yann說,"否則你很容易被自己騙了。" 他看過太多大公司內部的"自嗨專案",一群人關起門來覺得自己做出了革命性突破,結果根本不知道外面的人早就做得更好。 更重要的是,如果你告訴科學家"來我們這工作吧,但你不能說你在做什麼,也許5年後會有產品影響",沒人會有動力做真正的突破。 所以他決定出來。 但為什麼現在創業成為可能? 這裡有個很有意思的現象。 以前,只有大公司才能做長期AI研究。貝爾實驗室靠AT&T的電信壟斷,IBM研究院靠大型主機壟斷,施樂PARC靠影印機壟斷。 壟斷帶來的超額利潤,才能養得起不考慮短期報酬的研究團隊。 但現在不一樣了。 投資人對AI的期望值高到了一個前所未有的程度,他們願意給新創公司投大錢,讓團隊在頭兩年就專心做研究。 "這在以前是不可能的,"Yann說。 所以AMI的模式是:做上游研究,全部發表,但同時也做產品。 他們要做的產品,是基於世界模型的智慧系統。 什麼是世界模型?為什麼Yann覺得這才是正道? 這是整個訪談最核心的部分。 Yann對LLM的批判非常直接:它們處理不了真實世界。 他算了一筆帳: 訓練一個像樣的LLM,需要30兆個token。一個token大概3個字節,所以是10的14次方字節。 這是什麼概念?這是網路上所有能找到的文字資料。 但如果換成影片呢? 10的14次方字節,以每秒2MB的壓縮率算,只夠15,000小時的影片。 15,000小時是什麼?是YouTube上30分鐘的上傳量。是一個4歲小孩醒著的時間總和(4年大概16,000小時)。 同樣的數據量,在影片裡包含的資訊遠遠超過文字。 而且影片裡有大量冗餘,這種冗餘恰恰是學習的關鍵。 完全隨機的東西你學不到任何東西,可學習的東西一定有模式,有冗餘。 所以Yann的結論是:我們永遠不可能只靠文本訓練出人類層次的AI。 那世界模型到底是什麼? 很多人以為世界模型就是"模擬器",像遊戲引擎一樣,把世界的每個細節都重現出來。 Yann說這個理解完全錯了。 他舉了個例子:計算流體力學(CFD)。 你要模擬飛機周圍的氣流,會把空間切成小方塊,每個方塊裡有速度、密度、溫度幾個變量,然後解偏微分方程。 這已經是抽象表示了。真實世界是個空氣分子在碰撞,但沒人會去模擬每個分子,那麼需要的計算量是天文數字。 更底層呢?分子是原子組成的,原子是粒子組成的,粒子要用量子場論來描述。 如果你真要從量子場論開始模擬我們現在這個對話,你需要一台地球那麼大的量子計算機,而且只能模擬幾納秒。 所以我們怎麼辦?我們發明抽象。 粒子、原子、分子、蛋白質、細胞、器官、生物、社會、生態系統,每一層都忽略了下一層的大量細節。 每個科學領域,本質上就是在某個抽象層次上做預測。 物理學家有個經典例子:一個裝滿氣體的盒子,你可以模擬每個分子的運動,但沒人這麼幹。 我們用PV=nRT,壓強×體積=粒子數×溫度。 這就是世界模型的核心思想:在抽象表示空間做預測,只預測相關的部分。 如果我問你100年後木星在哪裡,關於木星的所有資訊裡,你只需要6個數字:3個位置座標,3個速度分量。其他都不重要。 為什麼LLM做不到這個? LLM的問題在於,它們想預測每一個像素,每一個token。 這對於高維、連續、有雜訊的資料來說,根本不可能。 你不可能在像素層級預測影片的下一幀,因為有太多不可預測的細節。 一片樹葉怎麼飄,一個水花怎麼濺,這些都是隨機的。 LLM在文字上能work,是因為文字本身就是離散的、相對低維的。 但它們在視覺任務上表現很差,所有視覺能力都是單獨訓練的,不是LLM本身學到的。 Yann的方案是JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)。 簡單說就是: 1. 把輸入X和要預測的Y都經過編碼器,得到抽象表示 2. 在抽象表示空間做預測 3. 這個表示空間自動忽略了不可預測的細節(包括雜訊) 這個想法他想了很久。 一個20年的思考歷程 Yann在2000年代初就開始研究無監督學習,當時的想法是用自編碼器(autoencoder):輸入經過編碼器得到表示,再透過解碼器重建輸入。 但這個思路是錯的。 強迫表示包含輸入的所有信息,是個壞主意。 後來他們嘗試了各種正規化方法:稀疏自編碼器、去噪自編碼器、受限玻爾茲曼機。 這些在當時都挺火,但都沒真正解決問題。 2015年,Yann在NIPS(現在的NeurIPS)上做主題演講,核心就是世界模型。 他的學生開始做影片預測。 但又犯了同樣的錯誤:在像素層級預測。 這根本做不好。 預測是非確定性的,你需要隱變數來表示所有你不知道的東西。 他們試了很多年,效果都不理想。 轉捩點在5年前。 Yann的博士後Stéphane Deny嘗試了一個想法: 不用對比學習(contrastive learning),而是直接最大化編碼器輸出的資訊量。 Yann一開始覺得這不會work,因為他在80年代看過Geoffrey Hinton做類似的嘗試,都失敗了。 你沒辦法直接最大化訊息,因為你只能算資訊的上界,不能算下界。 但居然成功了。 這個方法叫Barlow Twins。 後來他們又改進出了VICReg(Variance-Invariance-Covariance Regularization),效果更好。 最近Randall Balestriero(他也上過這個播客)和Yann一起推出了I-JEPA,用的是SigReg,保證編碼器輸出是各向同性的高斯分佈。 現在這套方法已經比較成熟了。 為什麼說LLM永遠到不了AGI? Yann對矽谷現在的"LLM教"非常不客氣。 "所有人都在做同一件事,因為競爭太激烈了,沒人敢走岔路。" OpenAI、Meta、Google、Anthropic,所有人都在: • 擴大模型規模• 訓練更多合成資料• 購買授權資料• 僱用幾千人做RLHF • 發明新的強化學習技巧 他們相信這條路能通往超級智慧。 Yann說:這是妄想,永遠不會成功。 然後他們加上一些"推理"技術,本質就是讓模型產生超長的思考鏈,產生一大堆候選輸出,然後用評估函數選最好的。 "這帶不了我們去任何地方。" 他說矽谷現在有一種"優越感綜合症"。 前段時間DeepSeek出來,用不同的方法做出了好效果,矽谷的人都很驚訝。 "你們以為只有你們聰明嗎?" 那真正的AGI要多久? Yann首先說:"通用智能"這個概念本身就是扯淡。 我們人類自以為是"通用"的,但其實超級專門化。 我們很擅長處理真實世界,很擅長社交,但下棋我們卻爛得一塌糊塗。機器早就比我們強了。 我們覺得自己通用,只是因為我們能想到的問題,剛好都是我們能處理的問題。 但有大量問題是我們想都想不到的。 所以不要說"通用智能",要說"人類水平智能"。 最樂觀的情況:5到10年內達到狗的智能水準。 為什麼是狗? 因為從狗到人類,主要就是腦容量和語言。語言其實是很小的一塊,就是Broca區和Wernicke區,兩小塊皮層,不到100萬年進化出來的。 我們已經有LLM處理語言了,可以把它們當作大腦的語言區。 我們現在缺少的是前額葉皮質,那裡住著世界模型。 但Yann也說,很可能我們會遇到現在看不到的障礙,那可能要20年,甚至更久。 "AI歷史上這種事發生過很多次。" Moravec悖論還在發揮 Moravec在1988年說:我們覺得很難的智力任務(下棋、算積分),電腦很容易做到。 但我們覺得理所當然的事(貓能做的事),計算機做不到。 47年過去了,這個悖論還在。 我們現在能訓練機器人走路、避障,但它們遠不如一隻貓靈活、有創意。 "所以那些說一兩年內就有AGI的人,完全是妄想。真實世界比他們想的複雜太多了。" 你不可能透過把世界tokenize然後用LLM來理解真實世界。 AI會搶走所有工作嗎? Yann說:別聽AI科學家談經濟學。 "去問經濟學家,沒有一個經濟學家預測會出現大規模失業。" 他舉了個例子:80年代最火紅的工作是"知識工程師"。 那時候有個大潮流叫專家系統,日本啟動了"第五代電腦"項目,要做能跑Lisp和推理引擎的CPU。 知識工程師的工作是坐在專家旁邊,把專家的知識變成規則和事實,然後電腦就能做專家做的事了。 這就是手工版的行為克隆。 結果呢?只在很少幾個領域work,在經濟上划算且可靠性夠高的應用屈指可數。 這不是通往人類智慧的路。 但當時的人也覺得這就是未來,就像現在的人覺得LLM是未來一樣。 "在我職業生涯裡,這種'最新技術就要帶來AGI'的幻覺已經出現過三次了,在我之前可能有五六次。" 1956年,Newell和Simon做了"通用問題解算者"(General Problem Solver,名字很謙虛對吧)。 他們覺得所有問題都能表示成搜尋:有個目標函數,有個解空間,搜尋最優解就行了。 他們不知道的是,所有有意思的問題都是指數複雜度的。 所以通用問題求解器一點都不通用。 AI安全:為什麼Yann不擔心 很多人問他和Hinton、Bengio觀點不一樣怎麼辦。 Yann的回答很實際:當然要做安全,但這是工程問題,不是原則問題。 他舉了噴射發動機的例子。 你能在雙引擎飛機上飛半個地球,17小時,完全安全。這太神奇了。 渦輪風扇引擎裡的溫度,沒有任何金屬能承受。旋轉產生的離心力是幾百噸。照理說這東西根本不該work。 但它確實work,因為工程做得好。 第一次造噴射發動機,一定會跑10分鐘就爆炸。不會省油,不會可靠。 但經濟動力太強了,最後做到了今天的可靠性。 AI也一樣。 我們會先做出貓腦等級的AI,然後再加上護欄(guardrails),防止它做危險的事。 Stuart Russell舉過一個例子:你請家用機器人幫你拿咖啡,有人擋在咖啡機前面,機器人為了完成任務會不會把人推開甚至傷害? Yann說這個例子很蠢,因為太容易修了。 你加個底層約束就行了:家用機器人要遠離人,如果有人擋路就請他們讓開,但絕對不能傷害人。 如果機器人手裡拿著刀在切黃瓜,那就加個約束:手裡有刀的時候,周圍有人就不要揮動手臂。 這些都是硬約束,不是fine-tuning。 LLM的問題是你只能fine-tune,總是能被jailbreak。 但如果你用目標驅動的架構,有世界模型,能預測行動的後果,然後透過最佳化來選擇行動序列,同時滿足一堆限制條件,那它在構造上就是安全的。 它逃不掉這些約束,因為這不是訓練出來的偏好,是系統架構的一部分。 智能不等於想要統治 這是Yann反覆強調的一點。 "不是因為某個東西智能,它就想統治別人。這是兩回事。" 人類想要影響他人,有時透過統治,有時透過威望,這是進化寫在我們基因裡的,因為我們是社會物種。 我們沒理由把這種驅動力寫進AI系統,它們也不會自己發展出來。 而且,"最聰明的人往往不是想當老大的人"。 他說:"看看國際政治舞台,想當老大的不是最聰明的那些人。" 很多最聰明的人只想研究自己的問題,根本不想管別人。 為什麼要保持開放? AMI會發表所有上游研究。 Yann說這不是情懷,是必需品。 "如果你不發表,你很容易被自己騙。" 他見過太多次:公司內部對某個專案超級興奮,覺得是革命性突破,結果根本不知道外面的人早就做得更好。 而且,如果你告訴科學家"來工作吧,但不能說你在做什麼,也許5年後會有產品",他們沒辦法有動力。 他們需要短期回饋,需要同儕認可。 如果你想要真正的突破,必須讓人發表。沒有別的辦法。 "這是很多公司現在正在忘記的事情。" 一個有趣的現象:中國更開放 Yann指出了一個諷刺的現象。 現在最好的開源模型是中國的。 美國公司(除了Meta)都在變得封閉,想保護"競爭優勢"。 但中國的公司和研究機構完全開放。 所以現在很多工業界和學術界的人在用中國的模型,因為他們需要開源模型。 很多美國業內人士對此非常不滿。 他們希望有一個好的、非中國的開源模型。 Llama 4本來可以是,但讓人失望。也許Meta會修正,也許Meta也會變封閉,還不清楚。 Mistral剛發布了一個很好的程式碼產生模型,他們保持開放,這很酷。 他為什麼還不退休? Yann65歲了,拿了圖靈獎,剛拿了伊莉莎白女王獎,完全可以退休。 他老婆也希望他退休。 "但我有個使命。" 他一直相信:讓人更聰明,或是用機器幫助人變得更聰明,本質上是好事。 智能是世界上最稀缺的商品,尤其是在政府(他笑著說)。 我們作為一個物種、作為一個星球,被有限的智慧供應所限制。這就是為什麼我們花巨大資源教育人。 增加為人類服務的智慧總量,本質上是好事。 當然有危險,當然要防護。就像你要確保噴射引擎安全可靠,汽車不會在小碰撞裡殺死你。 但這是工程問題,不是不可克服的。也是政治問題,但不是不可克服的。 他職業生涯裡的所有項目,都圍繞著這個目標:讓人更聰明。 這就是為什麼他當教授,為什麼他在社交媒體上大量科普,為什麼他做機器智能研究。 "人們覺得做自主智慧機器和做輔助人類的機器是兩套技術。不是的,完全是同一套技術。" Yann不只是研究AI。 他喜歡航海,尤其是多體船(三體船和雙體船)。他有好幾艘船。 他喜歡造飛行器。 "我不叫它們飛機,因為很多根本不像飛機,但它們確實能飛。" 他爸爸是航空工程師,業餘造飛機,還自己造無線電遙控系統。這成了家庭活動。他弟弟也在做,他弟弟在Google Research巴黎。 疫情期間他開始搞天文攝影,買了一堆望遠鏡拍星空。 他做電子樂器。從青少年時期就對音樂和電子音樂感興趣,現在家裡有一堆合成器,他自己做電子樂器,吹奏的那種,有指法,但產生的是控制訊號。 他說航海和世界模型很像。 要把帆船開好開快,你必須預測很多東西:波浪怎麼影響船,陣風什麼時候來,船會不會傾斜。 你基本上要在腦中跑流體力學計算。 你要知道氣流在帆周圍怎麼流動,攻角太大會產生湍流,升力會大幅下降。 "調帆需要在腦子裡跑CFD,但是在抽象層面,你不是在解Stokes方程式。" 這就是他喜歡航海的原因:你必須建立一個預測性的心智模式才能做好。 最後的建議 有人問:如果今天開始AI職業生涯,該學什麼? Yann的答案可能會讓人意外。 "學那些保質期長的東西,學那些幫助你學會學習的東西。" 科技變化太快,你需要快速學習的能力。 這怎麼做到?學基礎的東西。 而這些東西往往不是計算機科學。 "我是計算機系教授,但我建議你別學太多計算機科學。而且我要坦白:我本科學的是電機工程,我不是真正的計算機科學家。" 你應該學: • 數學,尤其是能和現實連結的數學• 建模• 工程學科裡學到的那些東西 在美國,微積分1、2、3給你打好基礎。但計算機系只要求微積分1,這不夠。 機率論、代數、控制論、訊號處理、最佳化,這些對AI都超級有用。 物理也很好,因為物理就是關於"我應該表示現實的什麼才能做預測"。 這正是智能的本質。 當然你也要學足夠的計算機科學,能編程,能用計算機。 即使AI會幫你編程,你還是要懂這些。 有人問:AI輔助程式設計會怎樣? Yann說:會出現一個有趣的現象,很多程式碼只會被用一次。 因為寫程式碼變得太便宜了。你請AI助手"畫個圖"或"做個小模擬器",它寫段程式碼,你用一次就丟了。 "所以說我們不再需要程式設計師是錯的。軟體成本一直在下降,這只是下一步。 但這不代表計算機會變得不重要,而是會更重要。 " 整個訪談裡,Yann展現出一種很罕見的特質。 他批判當下的主流方向,但不是為了批判而批判。 他有清晰的替代方案,有幾十年的思考積累,有失敗的教訓,也有最近的突破。 他65歲了,本來可以躺在功勞簿上,但他選擇去做一件"所有人都覺得錯"的事。 也許他是對的。 也許5年後我們會發現,當所有人都在堆LLM的時候,真正的突破來自世界模型。 也許20年後我們會發現,我們又遇到了看不見的障礙。 但至少,有人在走不一樣的路。 而這個人,恰好是發明了卷積神經網絡、在AI寒冬裡堅持了幾十年、親眼見證了三次"這次肯定能實現AGI"的泡沫的人。 他的話,值得聽,雖然不中聽。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。