これは、「RL による小規模サブネットの調整」論文を執筆した同じ人々による興味深い研究ブログです。 これは、最大 90% のパラメータが更新される adamW と比較して、SGD-RLVR の組み合わせでは 0.01% のパラメータが更新される点について説明されているため、役立つと思います。これは、少なくとも RLVR に関しては、SGD よりも adamW を破棄できることを意味します。 頭の中にはいくつかの疑問があり、次は自分の実験で答えを見つけようと思っています。 > トレーニング後の「SGD 安全サブスペース」と「adamW が必要な完全空間」の境界は正確にどこにあるのでしょうか? > RLVR/SGD の小さなアクティブ サブネットワークを、マルチドメイン トレーニング用の再利用可能なモジュール式アダプター スタックに体系的に変換できますか? > トレーニング後にこれらの小さな構造化されたサブスペース (RLVR/SGD によって発見されるか、LoRA として設計される) で操作するように強制すると、モデルのグローバル プロパティはフルスペースの adamW RLHF/RLVR と比較してどのように変化しますか? これについては小規模でクリーンな実験を考える必要があり、このスレッド自体を更新します。 RLVR を超える収益はあまりないかもしれませんが、これはまだ十分に調査されていない問題です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。