應該是上週Jeff Dean 在史丹佛做了個分享,用AI總結寫成文章,影片見評論區 AI 是怎麼突然變這麼強的? Jeff Dean,Google 的AI 負責人,他用自己的經歷,講了這個故事。 他說:"我們今天看到的AI,是過去十五年技術疊加的產物。" 不是一個突破。是一系列突破。 每一個突破,都讓AI 往前跨了一大步。 接下來,讓我來講清楚這些突破是什麼。 從最早的"模型學會了貓",到今天的"AI 拿奧數金牌"。 2012,模型自己學會認識貓 2012 年。 Google Brain 專案。 Jeff Dean 和他的團隊,正在做一個實驗。 他們想知道:AI 能不能自己學會認識東西? 不給標籤,不告訴它"這是貓""這是狗"。就給它一堆圖片,讓它自己看。 他們用了1000 萬個YouTube 影片幀,隨機的。沒有任何標註。 然後,他們訓練了一個神經網路。網路很大,比以往大50 到100 倍。 訓練完後,他們看了看網路頂層的神經元。它們在對什麼敏感? 結果讓所有人震驚。 有一個神經元,對"貓"特別敏感。你給它一張貓的圖片,這個神經元就會被啟動。你給它一張狗的圖片,它不會被啟動。 模型自己學會了"貓"是什麼。 沒人教它。它自己從1000 萬張圖片裡,學會了。 這就是無監督學習。 Jeff Dean 說:"這太酷了。" 因為這證明了:AI 可以自己發現概念。不需要人類告訴它"這是什麼"。它只需要看夠多的數據。 這是AI 學習能力的起點。 我們講了AI 怎麼學會"看"。 現在,我們講AI 怎麼學會"理解語言"。 關鍵技術:Word2Vec。 以前,電腦處理語言,是把每個字當成一個孤立的符號。 "貓"就是"貓"。 "狗"就是"狗"。它們之間,沒有關係。 但Word2Vec 不一樣。它把每個詞,變成一個高維向量。 什麼意思?就是,每個字都是一串數字。例如,"國王"可能是(0.5, 0.8, 0.3, ...)。 "女王"可能是(0.5, 0.2, 0.3, ...)。 但神奇的是:這些向量的方向,是有意義的。 如果你做一個計算:"國王" - "男人" + "女人",你會得到一個新的向量。 這個向量,最接近的詞是:"女王"。 這就是Word2Vec 的魔力。 它不只是把詞變成數字。它讓語意關係,變成了數學關係。 "國王"和"女王"的關係,就像"男人"和"女人"的關係。 這個關係,被編碼在向量的方向。 Jeff Dean 說:"這讓機器第一次能'理解'語言。" 不是真的理解。但它能計算語意。 我們講了AI 怎麼理解語言。 現在,我們講一個更現實的問題:算力。 2015 年左右。 Google 想推出一個改進的語音辨識模型。效果很好,使用者會喜歡。 但有一個問題。 Jeff Dean 算了一筆帳:如果要用這個模型,Google 需要把計算機數量翻一倍。 你沒聽錯。翻一倍。 這是什麼概念? Google 當時已經有幾十萬台伺服器了。翻一倍,意味著再買幾十萬台。 這根本不現實。 所以,他們必須想辦法。 答案是:專用硬體。 他們發現,神經網路有一個特性:它對低精度計算非常寬容。 而且,它的核心就是密集的矩陣乘法。 這兩個特性,讓他們可以設計專門的晶片。 不用通用的CPU,也不用GPU。而是專為神經網路設計的晶片。 這就是TPU:Tensor Processing Unit。 2015 年,TPUv1 推出。 它比當時的CPU 和GPU,快15 到30 倍。能效高30 到80 倍。 這解決了算力危機。 後來,他們繼續迭代。 最新的系統,比TPUv2 快了3600 倍。 Jeff Dean 說:"沒有專用硬件,就沒有今天的AI。" 算力,是AI 的基礎設施。 Transformer 改變了一切 我們講了硬體。現在,我們講架構。 2017 年。 Google 的同事,提出了一個新架構。 Transformer。 這改變了一切。 在Transformer 之前,處理語言的模型,都是循環模型。 什麼意思? 就是,模型要一個字一個字地處理。 而且,它要把所有訊息,壓縮到一個向量裡。 這很低效。 Transformer 不這麼乾。 它的核心思想是: 不要壓縮,保存所有中間狀態。 然後,讓模型在需要的時候,去"關注"(Attend to)任何一個狀態。 這就是Self-Attention。 結果呢? 準確率更高。 計算量少了10 到100 倍。模型參數小了10 倍。 這太瘋狂了。更快,更準,更小。 而且,Transformer 不只能處理語言。 它還能處理影像。這就是Vision Transformer(ViT)。 Jeff Dean 說:"Transformer 是現代AI 的基礎。" ChatGPT 用的是Transformer。 Gemini 用的是Transformer。 所有你看到的大模型,都是Transformer。 讓模型變聰明的三個技巧 我們講了Transformer。 現在,我們講訓練。 怎麼讓模型變得更聰明?有三個關鍵技巧。 第一個:稀疏模型。 正常的神經網絡,每次預測都要激活整個模型。太浪費了。 稀疏模型不一樣。它只啟動1% 到5% 的參數。剩下的,都在"睡覺"。 這讓訓練成本降低了8 倍。 Jeff Dean 說:"Gemini 就是稀疏模型。" 第二個:蒸餾。 這是把知識從大模型轉移給小模型。怎麼轉? 大模型不只告訴小模型"對"或"錯"。 它給的是機率分佈。這個訊號非常豐富。 結果呢?小模型只用3% 的數據,就能達到大模型的效果。 第三個:思維鏈。 你給模型一個例子,讓它"展示它的工作過程"。例如,做數學題的時候,不是直接給答案,而是一步一步寫出推理過程。 這讓模型在複雜推理任務上的準確率,顯著提升。 這三個技巧,讓模型更有效率、更聰明。 前面我們講了AI 的技術基礎。 現在,我們講成果。 2022 年。 Google 的研究員們,正在為一件事感到興奮。 他們的模型,終於能做國中數學題了。準確率:15%。 "約翰有五隻兔子,又得了兩隻,他現在有幾隻兔子?"這種題。 AI 能做對15%。 他們覺得,這是個突破。 2024 年。兩年後。 同一個團隊,發布了Gemini 2.5 Pro。他們讓它參加國際數學奧林匹克。 六題。它做對了五道。 這是金牌等級。 從15% 的國中數學題,到奧數金牌。兩年。 Jeff Dean 說:"這就是AI 的進步速度。" 不是線性的。不是慢慢變好。 是指數級的。 2022 年,AI 還在學習加法。 2024 年,AI 已經在解奧數題了。 那2026 年呢?我們不知道。 但如果照這個速度,可能會超出我們的想像。 這就是我們今天看到的AI。它不是慢慢變強的。它是突然變強的。 從2012 年的"模型學會了貓",到2024 年的"AI 拿奧數金牌"。 十二年。 AI 從幾乎什麼都不會,變成了幾乎什麼都會。 那接下來呢? Jeff Dean 說:AI 將對醫療、教育、科學研究產生巨大影響。 一個不會寫程式的人,也能讓AI 幫他建立網站。 這是把專業知識普及給更多人。 但同時,我們也必須正視潛在的風險。 比如,錯誤訊息傳播。 AI 可以產生非常逼真的內容。如果被濫用,後果很嚴重。 Jeff Dean 說:"我們不能對潛在的負面影響視而不見。我們的目標是,在最大化AI 益處的同時,最小化潛在的弊端。" 這就是AI 的故事。 從反向傳播,到Transformer,到Gemini。過去十五年,技術、硬體、演算法,全都疊加在一起。 我們今天看到的AI,就是這一切的產物。 而這個故事,還在繼續。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。