X (Twitter)

基於王冠提到的OpenAI研究員之前在史丹佛分享的，讓AI寫一篇容易懂的文章。訓練GPT到底在幹嘛？大多數人會說"學語言規律""預測下一個字"。這些都對，但還不夠深刻。 OpenAI的Jack Rae 在史丹佛提出了一個讓人眼前一亮的視角：訓練大語言模型，本質上是在做無損壓縮。很反直覺對吧？一個175B參數的模型，怎麼可能是"壓縮"？但如果你理解了這個視角，很多困惑就會豁然開朗。先聊聊哲學。早在公元前4世紀，亞里斯多德就說過："用更少假設推導出的論證，往往更優越"。這種"簡單即美"的思想，後來被14世紀的奧卡姆總結成著名的"奧卡姆剃刀"原則，最簡單的解釋往往是正確的。但這些哲學思辨，在1964年被Ray Solomonoff變成了可證明的數學定理：如果一個資料集是由某個演算法產生的，那麼預測這個資料集的最佳方式，就是找到該資料集的最小可執行壓縮包。定理很精妙，說的是：你對資料壓縮得越好，就越理解資料的本質。回想下"中文房間"這個經典思想實驗。一個人拿著一本巨大的規則手冊，裡面記錄了所有可能的英文句子和對應的中文翻譯。這個人真的"理解"翻譯嗎？從壓縮的角度看，答案很清楚：這本手冊太大了，是最差的理解方式。如果出現一個新詞、新表達，系統立刻崩潰，因為它只是在查表，沒有真正理解語言的規律。但如果你能把這本手冊壓縮成一套精簡的文法規則和核心詞彙，那就不一樣了。壓縮率越高，表示你提煉出的規律越本質，泛化能力就越強。大語言模型是最好的壓縮器先看一組驚人的數字。 Meta發布的Llama模型，65B版本在1.4兆token的資料上訓練了一個epoch。原始資料大小是5.6TB，但如果用這個模型來"壓縮"，最終只需要大約400GB的空間。壓縮率14倍。作為對比，目前最好的傳統文字壓縮演算法（Hutter Prize獲獎者）的壓縮率是8.7倍。大語言模型已經是最先進的無損文字壓縮器了。你可能會問：等等，65B的機型本身不就有260GB嗎？怎麼能說壓縮後只有400GB？這就是最精彩的部分。你不需要傳輸模型權重，關鍵在於理解"壓縮"的真正意義。假設：你想把維基百科的全部內容發給朋友，但頻寬很低。傳統方法是用gzip壓縮，但有個更聰明的方法：你發給朋友兩樣東西： 1. 一段訓練Transformer的程式碼（只有1MB） 2. 用這個模型壓縮後的資料序列（400GB）朋友收到後，用這段程式碼從頭訓練一個一模一樣的模型。每預測一個token，就用壓縮資料"解碼"出真實token，然後繼續訓練，預測下一個。重複這個過程，就能完整還原5.6TB的原始資料。看到了嗎？模型權重從來不需要傳輸。無論你訓練10層還是1000層的Transformer，初始化程式碼的複雜度幾乎一樣。真正佔空間的是"壓縮後的資料"，而這個大小取決於模型預測得有多準。這就是為什麼更大的模型反而壓縮得更好。讓我們重新理解"簡單"。傳統機器學習告訴我們"小模型泛化更好"，因為它們"更簡單"。但這裡的"簡單"指的是參數少。壓縮視角告訴我們：真正的簡單不是參數少，而是對資料的描述更簡潔。 Llama 33B和65B的"代碼複雜度"完全一樣（都是那1MB的訓練代碼），但65B把資料壓縮得更小。所以從根本上來說，65B是更"簡單"的模型，也是更聰明的模型。這就是為什麼大模型不會過度擬合，為什麼scaling law有效。只要模型能更好地壓縮數據，它就在學習更本質的規律，就會有更強的泛化能力。壓縮視角也給了我們一個特別的禮物：它是唯一不可博弈的訓練目標。測試集污染是現在大模型評估的大問題。但如果用壓縮來衡量，這個問題就不存在。假設你把整個測試集都塞進訓練集，讓模型完美記住。這樣模型預測準確率是100%，壓縮資料的部分確實變成0了。但代價是什麼？你要把整個資料集都算進"模型描述長度"裡。整體壓縮效果反而變差。這就是壓迫的優雅之處：任何作弊手段都會在數學上暴露出來。只有真正學到本質規律，才能做到更好的壓縮。從這個視角看，通往AGI的路徑變得清晰了：收集所有有用的感知信息，然後儘可能地壓縮它。任何能提升壓縮率的方法都值得研究： • 更好的架構（S4、稀疏注意力） • 繼續scaling（更大模型、更多數據） • 工具使用（計算機、檢索器） • 合成資料• 多模態融合只要它能降低"壓縮後的總大小"，就是在朝AGI前進。回顧歷史，每一次AI的典範轉變，本質上都是一次壓縮的飛躍： • n-gram 讓我們有了基本的語音辨識• RNN 讓我們能產生連貫的段落，做機器翻譯• 大規模Transformer 讓我們能理解長文檔，做複雜推理每一次，我們都在把世界的訊息壓縮得更緊湊，理解得更深刻。當然，這個視角也有限制。對影像、影片這種高維度數據，逐像素建模可能正確但不實用。計算量會爆炸。可能需要先做一些語意層面的濾波。更重要的是，世界上有許多有用的信息是不可觀測的。例如圍棋高手的"搜尋樹"，你只能看到落子，看不到他們考慮的那些分支。這就是為什麼AlphaZero需要自我對弈，它正在產生那些不可觀測的數據。所以壓縮可觀測資料是必要的，但不充分。強化學習、主動探索這些方法仍然不可或缺。但無論如何，壓縮給了我們一個理解智能的新角度。當我們說模型"湧現"了新能力，本質上是不是壓縮率跨過了某個臨界點？當我們說模型"理解"了某個概念，是不是說它找到了一種更簡潔的方式來編碼相關資訊？當我們追求AGI，是不是就是在尋找宇宙資訊的最小描述長度？這些問題沒有標準答案。但這正是這個領域迷人的地方：我們在用數學和工程，探索智能的本質。智能的本質，也許就藏在壓縮裡。而我們現在所做的，就是在這條路上，一步步走向那個最簡潔、最優雅的答案。

原始視訊地址https://t.co/0PHaKYslmc

来自向阳乔木（@vista8）的推文线程

作者信息

线程正文