X (Twitter)

應該是上週Jeff Dean 在史丹佛做了個分享，用AI總結寫成文章，影片見評論區 AI 是怎麼突然變這麼強的？ Jeff Dean，Google 的AI 負責人，他用自己的經歷，講了這個故事。他說："我們今天看到的AI，是過去十五年技術疊加的產物。" 不是一個突破。是一系列突破。每一個突破，都讓AI 往前跨了一大步。接下來，讓我來講清楚這些突破是什麼。從最早的"模型學會了貓"，到今天的"AI 拿奧數金牌"。 2012，模型自己學會認識貓 2012 年。 Google Brain 專案。 Jeff Dean 和他的團隊，正在做一個實驗。他們想知道：AI 能不能自己學會認識東西？不給標籤，不告訴它"這是貓""這是狗"。就給它一堆圖片，讓它自己看。他們用了1000 萬個YouTube 影片幀，隨機的。沒有任何標註。然後，他們訓練了一個神經網路。網路很大，比以往大50 到100 倍。訓練完後，他們看了看網路頂層的神經元。它們在對什麼敏感？結果讓所有人震驚。有一個神經元，對"貓"特別敏感。你給它一張貓的圖片，這個神經元就會被啟動。你給它一張狗的圖片，它不會被啟動。模型自己學會了"貓"是什麼。沒人教它。它自己從1000 萬張圖片裡，學會了。這就是無監督學習。 Jeff Dean 說："這太酷了。" 因為這證明了：AI 可以自己發現概念。不需要人類告訴它"這是什麼"。它只需要看夠多的數據。這是AI 學習能力的起點。我們講了AI 怎麼學會"看"。現在，我們講AI 怎麼學會"理解語言"。關鍵技術：Word2Vec。以前，電腦處理語言，是把每個字當成一個孤立的符號。 "貓"就是"貓"。 "狗"就是"狗"。它們之間，沒有關係。但Word2Vec 不一樣。它把每個詞，變成一個高維向量。什麼意思？就是，每個字都是一串數字。例如，"國王"可能是(0.5, 0.8, 0.3, ...)。 "女王"可能是(0.5, 0.2, 0.3, ...)。但神奇的是：這些向量的方向，是有意義的。如果你做一個計算："國王" - "男人" + "女人"，你會得到一個新的向量。這個向量，最接近的詞是："女王"。這就是Word2Vec 的魔力。它不只是把詞變成數字。它讓語意關係，變成了數學關係。 "國王"和"女王"的關係，就像"男人"和"女人"的關係。這個關係，被編碼在向量的方向。 Jeff Dean 說："這讓機器第一次能'理解'語言。" 不是真的理解。但它能計算語意。我們講了AI 怎麼理解語言。現在，我們講一個更現實的問題：算力。 2015 年左右。 Google 想推出一個改進的語音辨識模型。效果很好，使用者會喜歡。但有一個問題。 Jeff Dean 算了一筆帳：如果要用這個模型，Google 需要把計算機數量翻一倍。你沒聽錯。翻一倍。這是什麼概念？ Google 當時已經有幾十萬台伺服器了。翻一倍，意味著再買幾十萬台。這根本不現實。所以，他們必須想辦法。答案是：專用硬體。他們發現，神經網路有一個特性：它對低精度計算非常寬容。而且，它的核心就是密集的矩陣乘法。這兩個特性，讓他們可以設計專門的晶片。不用通用的CPU，也不用GPU。而是專為神經網路設計的晶片。這就是TPU：Tensor Processing Unit。 2015 年，TPUv1 推出。它比當時的CPU 和GPU，快15 到30 倍。能效高30 到80 倍。這解決了算力危機。後來，他們繼續迭代。最新的系統，比TPUv2 快了3600 倍。 Jeff Dean 說："沒有專用硬件，就沒有今天的AI。" 算力，是AI 的基礎設施。 Transformer 改變了一切我們講了硬體。現在，我們講架構。 2017 年。 Google 的同事，提出了一個新架構。 Transformer。這改變了一切。在Transformer 之前，處理語言的模型，都是循環模型。什麼意思？就是，模型要一個字一個字地處理。而且，它要把所有訊息，壓縮到一個向量裡。這很低效。 Transformer 不這麼乾。它的核心思想是：不要壓縮，保存所有中間狀態。然後，讓模型在需要的時候，去"關注"（Attend to）任何一個狀態。這就是Self-Attention。結果呢？準確率更高。計算量少了10 到100 倍。模型參數小了10 倍。這太瘋狂了。更快，更準，更小。而且，Transformer 不只能處理語言。它還能處理影像。這就是Vision Transformer（ViT）。 Jeff Dean 說："Transformer 是現代AI 的基礎。" ChatGPT 用的是Transformer。 Gemini 用的是Transformer。所有你看到的大模型，都是Transformer。讓模型變聰明的三個技巧我們講了Transformer。現在，我們講訓練。怎麼讓模型變得更聰明？有三個關鍵技巧。第一個：稀疏模型。正常的神經網絡，每次預測都要激活整個模型。太浪費了。稀疏模型不一樣。它只啟動1% 到5% 的參數。剩下的，都在"睡覺"。這讓訓練成本降低了8 倍。 Jeff Dean 說："Gemini 就是稀疏模型。" 第二個：蒸餾。這是把知識從大模型轉移給小模型。怎麼轉？大模型不只告訴小模型"對"或"錯"。它給的是機率分佈。這個訊號非常豐富。結果呢？小模型只用3% 的數據，就能達到大模型的效果。第三個：思維鏈。你給模型一個例子，讓它"展示它的工作過程"。例如，做數學題的時候，不是直接給答案，而是一步一步寫出推理過程。這讓模型在複雜推理任務上的準確率，顯著提升。這三個技巧，讓模型更有效率、更聰明。前面我們講了AI 的技術基礎。現在，我們講成果。 2022 年。 Google 的研究員們，正在為一件事感到興奮。他們的模型，終於能做國中數學題了。準確率：15%。 "約翰有五隻兔子，又得了兩隻，他現在有幾隻兔子？"這種題。 AI 能做對15%。他們覺得，這是個突破。 2024 年。兩年後。同一個團隊，發布了Gemini 2.5 Pro。他們讓它參加國際數學奧林匹克。六題。它做對了五道。這是金牌等級。從15% 的國中數學題，到奧數金牌。兩年。 Jeff Dean 說："這就是AI 的進步速度。" 不是線性的。不是慢慢變好。是指數級的。 2022 年，AI 還在學習加法。 2024 年，AI 已經在解奧數題了。那2026 年呢？我們不知道。但如果照這個速度，可能會超出我們的想像。這就是我們今天看到的AI。它不是慢慢變強的。它是突然變強的。從2012 年的"模型學會了貓"，到2024 年的"AI 拿奧數金牌"。十二年。 AI 從幾乎什麼都不會，變成了幾乎什麼都會。那接下來呢？ Jeff Dean 說：AI 將對醫療、教育、科學研究產生巨大影響。一個不會寫程式的人，也能讓AI 幫他建立網站。這是把專業知識普及給更多人。但同時，我們也必須正視潛在的風險。比如，錯誤訊息傳播。 AI 可以產生非常逼真的內容。如果被濫用，後果很嚴重。 Jeff Dean 說："我們不能對潛在的負面影響視而不見。我們的目標是，在最大化AI 益處的同時，最小化潛在的弊端。" 這就是AI 的故事。從反向傳播，到Transformer，到Gemini。過去十五年，技術、硬體、演算法，全都疊加在一起。我們今天看到的AI，就是這一切的產物。而這個故事，還在繼續。

youtube.com/watch?v=AnTw_t…

来自向阳乔木（@vista8）的推文线程

作者信息

线程正文