基於王冠提到的OpenAI研究員之前在史丹佛分享的,讓AI寫一篇容易懂的文章。 訓練GPT到底在幹嘛? 大多數人會說"學語言規律""預測下一個字"。 這些都對,但還不夠深刻。 OpenAI的Jack Rae 在史丹佛提出了一個讓人眼前一亮的視角:訓練大語言模型,本質上是在做無損壓縮。 很反直覺對吧? 一個175B參數的模型,怎麼可能是"壓縮"? 但如果你理解了這個視角,很多困惑就會豁然開朗。 先聊聊哲學。 早在公元前4世紀,亞里斯多德就說過:"用更少假設推導出的論證,往往更優越"。 這種"簡單即美"的思想,後來被14世紀的奧卡姆總結成著名的"奧卡姆剃刀"原則,最簡單的解釋往往是正確的。 但這些哲學思辨,在1964年被Ray Solomonoff變成了可證明的數學定理: 如果一個資料集是由某個演算法產生的,那麼預測這個資料集的最佳方式,就是找到該資料集的最小可執行壓縮包。 定理很精妙,說的是:你對資料壓縮得越好,就越理解資料的本質。 回想下"中文房間"這個經典思想實驗。 一個人拿著一本巨大的規則手冊,裡面記錄了所有可能的英文句子和對應的中文翻譯。 這個人真的"理解"翻譯嗎? 從壓縮的角度看,答案很清楚:這本手冊太大了,是最差的理解方式。 如果出現一個新詞、新表達,系統立刻崩潰,因為它只是在查表,沒有真正理解語言的規律。 但如果你能把這本手冊壓縮成一套精簡的文法規則和核心詞彙,那就不一樣了。 壓縮率越高,表示你提煉出的規律越本質,泛化能力就越強。 大語言模型是最好的壓縮器 先看一組驚人的數字。 Meta發布的Llama模型,65B版本在1.4兆token的資料上訓練了一個epoch。 原始資料大小是5.6TB,但如果用這個模型來"壓縮",最終只需要大約400GB的空間。 壓縮率14倍。 作為對比,目前最好的傳統文字壓縮演算法(Hutter Prize獲獎者)的壓縮率是8.7倍。 大語言模型已經是最先進的無損文字壓縮器了。 你可能會問:等等,65B的機型本身不就有260GB嗎?怎麼能說壓縮後只有400GB? 這就是最精彩的部分。 你不需要傳輸模型權重,關鍵在於理解"壓縮"的真正意義。 假設:你想把維基百科的全部內容發給朋友,但頻寬很低。 傳統方法是用gzip壓縮,但有個更聰明的方法: 你發給朋友兩樣東西: 1. 一段訓練Transformer的程式碼(只有1MB) 2. 用這個模型壓縮後的資料序列(400GB) 朋友收到後,用這段程式碼從頭訓練一個一模一樣的模型。 每預測一個token,就用壓縮資料"解碼"出真實token,然後繼續訓練,預測下一個。 重複這個過程,就能完整還原5.6TB的原始資料。 看到了嗎?模型權重從來不需要傳輸。 無論你訓練10層還是1000層的Transformer,初始化程式碼的複雜度幾乎一樣。 真正佔空間的是"壓縮後的資料",而這個大小取決於模型預測得有多準。 這就是為什麼更大的模型反而壓縮得更好。 讓我們重新理解"簡單"。 傳統機器學習告訴我們"小模型泛化更好",因為它們"更簡單"。 但這裡的"簡單"指的是參數少。 壓縮視角告訴我們:真正的簡單不是參數少,而是對資料的描述更簡潔。 Llama 33B和65B的"代碼複雜度"完全一樣(都是那1MB的訓練代碼),但65B把資料壓縮得更小。 所以從根本上來說,65B是更"簡單"的模型,也是更聰明的模型。 這就是為什麼大模型不會過度擬合,為什麼scaling law有效。 只要模型能更好地壓縮數據,它就在學習更本質的規律,就會有更強的泛化能力。 壓縮視角也給了我們一個特別的禮物:它是唯一不可博弈的訓練目標。 測試集污染是現在大模型評估的大問題。 但如果用壓縮來衡量,這個問題就不存在。 假設你把整個測試集都塞進訓練集,讓模型完美記住。 這樣模型預測準確率是100%,壓縮資料的部分確實變成0了。 但代價是什麼?你要把整個資料集都算進"模型描述長度"裡。 整體壓縮效果反而變差。 這就是壓迫的優雅之處:任何作弊手段都會在數學上暴露出來。 只有真正學到本質規律,才能做到更好的壓縮。 從這個視角看,通往AGI的路徑變得清晰了: 收集所有有用的感知信息,然後儘可能地壓縮它。 任何能提升壓縮率的方法都值得研究: • 更好的架構(S4、稀疏注意力) • 繼續scaling(更大模型、更多數據) • 工具使用(計算機、檢索器) • 合成資料• 多模態融合 只要它能降低"壓縮後的總大小",就是在朝AGI前進。 回顧歷史,每一次AI的典範轉變,本質上都是一次壓縮的飛躍: • n-gram 讓我們有了基本的語音辨識• RNN 讓我們能產生連貫的段落,做機器翻譯• 大規模Transformer 讓我們能理解長文檔,做複雜推理 每一次,我們都在把世界的訊息壓縮得更緊湊,理解得更深刻。 當然,這個視角也有限制。 對影像、影片這種高維度數據,逐像素建模可能正確但不實用。 計算量會爆炸。 可能需要先做一些語意層面的濾波。 更重要的是,世界上有許多有用的信息是不可觀測的。 例如圍棋高手的"搜尋樹",你只能看到落子,看不到他們考慮的那些分支。 這就是為什麼AlphaZero需要自我對弈,它正在產生那些不可觀測的數據。 所以壓縮可觀測資料是必要的,但不充分。 強化學習、主動探索這些方法仍然不可或缺。 但無論如何,壓縮給了我們一個理解智能的新角度。 當我們說模型"湧現"了新能力,本質上是不是壓縮率跨過了某個臨界點? 當我們說模型"理解"了某個概念,是不是說它找到了一種更簡潔的方式來編碼相關資訊? 當我們追求AGI,是不是就是在尋找宇宙資訊的最小描述長度? 這些問題沒有標準答案。 但這正是這個領域迷人的地方:我們在用數學和工程,探索智能的本質。 智能的本質,也許就藏在壓縮裡。 而我們現在所做的,就是在這條路上,一步步走向那個最簡潔、最優雅的答案。
原始視訊地址https://t.co/0PHaKYslmc