這是一個引人入勝的研究博客,出自與“RL 調整小子網”論文相同的作者之手。 我覺得這篇文章很有用,因為它討論了SGD-RLVR組合的參數更新率只有0.01%,而AdamW的參數更新率高達90%。這意味著至少對於RLVR來說,我們可以放棄AdamW,轉而選擇SGD。 我腦子裡有很多問題,接下來我會嘗試透過自己的實驗來解答這些問題。 > 在訓練後階段,「SGD 安全子空間」和「adamW 所需的完整空間」之間的邊界究竟在哪裡? > 我們能否系統地將 RLVR/SGD 的小型活動子網路轉換為可重複使用的模組化適配器堆疊,用於多域訓練? 當您強制後訓練在這些微小的結構化子空間(由 RLVR/SGD 找到或設計為 LoRA)中運行時,模型的全局屬性與全空間 adamW RLHF/RLVR 相比有何變化? 我需要考慮一些小規模的、乾淨的實驗方案,之後會在這個帖子裡更新。 除了 RLVR 之外,它可能沒有太多應用前景,但這仍然是一個尚未充分探索的問題。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。