Ilya很早前的分享,講明白了的無監督學習的本質是“壓縮”,壓縮就是學習,很有啟發。 壓縮就是學習:一個更簡單的解釋 假設你有兩個資料夾: ① 資料夾X:一堆沒標籤的照片(無監督資料) ② 資料夾Y:你真正要做的任務,例如辨識貓狗(有標籤資料) 現在你用壓縮軟體把這兩個資料夾打包在一起。 神奇的事情發生了: 如果壓縮軟體夠聰明,它會發現X 和Y 裡有共同的模式(例如都有"毛茸茸的邊緣"、"四條腿"這些特徵),然後用這些共同模式來壓縮得更小。 這就是無監督學習在做的事。 監督學習很清楚: - 你告訴機器"這是貓,那是狗" - 機器學會了,訓練準確率高,測試準確率也高 - 有數學公式保證這件事 但無監督學習很詭異: - 你讓機器預測"下一個像素是什麼" - 但你真正想要的是"識別貓狗" - 這兩個任務根本不一樣啊!憑什麼預測像素能幫你辨識貓狗? 以前我們只知道無監督學習"確實有用",但說不清為什麼一定有用。 Ilya 說,把無監督學習想成壓縮問題就清楚了。 好的壓縮= 找出資料裡的規律 - 如果一張圖片全是隨機雜訊,你壓縮不了 - 如果圖片裡有規律(例如天空都是藍的,草地都是綠的),你就能壓縮 所以: - 預測下一個像素= 找到像素之間的規律= 壓縮圖片 - 找到的規律越好,壓縮越狠,學到的東西就越有用 2020 年Ilya 團隊做了個實驗: 1. 把圖片變成一串像素:像素1,像素2,像素3... 2. 訓練模型預測:看到前面的像素,猜下一個是什麼 3. 模型越大,預測越準 4. 神奇的事發生了:預測越準的模型,拿去做圖片分類也越準 這證明了:壓縮能力強= 學習能力強 舊的困惑: 我讓你學"預測下一個字",你怎麼就會"寫文"了?這倆不是一回事。 Ilya 的解釋: 因為要預測得準,你必須理解語言的深層規律。 這些規律對寫作文也有用。 用壓縮的語言說: - 壓縮一本小說,你得理解情節、人物、文法 - 這些理解本身就是"學習" - 壓縮得越好,理解越深 為什麼這個視角很棒? 因為它給了一個數學上的保證: 只要你的模型能把資料壓縮得夠好,它就一定學到了有用的東西。 簡單的一句話版本: 壓縮資料= 找規律,找到的規律越多,學到的東西就越有用。 GPT 預測下一個詞,本質上就是在壓縮文本,所以它能學會語言。 https://t.co/digeAJm2D7
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。