谷歌發布機器學習新範式:Nested Learning嵌套學習,解決LLM在持續學習中的災難性遺忘問題 核心思想,不要把模型當成一個整體來訓練,它應該是一組'嵌套'的小學習系統 即把模型視為多個嵌套的最佳化問題系統,每個子系統都有自己的學習節奏和資訊流,而不是一個統一的訓練過程,從而增強LLM對長上下文的處理能力,實現持續學習 其用了一個自修改架構模型Hope來測試驗證此套方法,結果比現有先進模型的長上下文記憶管理能力更好 語言建模和常識推理任務優於Titans、Samba和基線Transformer;長上下文管理能力優於Titans、TTT 、Mamba2 首先參數分層,同一權重矩陣依更新周期切成W₁,W₂,…,Wₙ(週期1,4,16,64…步) 然後連續記憶系統,把記憶看成一條“頻譜”,不同模組負責不同時間長度的訊息,避免學了就忘 深度優化器改進,將優化器視為關聯記憶模組,改進其目標函數,提升抗噪性 訓練程式碼只多一行「到時才更新」的判斷,其餘框架不變
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
