Il s'agit d'un blog de recherche fascinant, provenant des mêmes personnes que celles qui ont publié l'article « RL tunes small subnets ». Je trouve cela utile car cela explique comment la combinaison SGD-RLVR ne met à jour que 0,01 % de ses paramètres, contre jusqu'à 90 % pour AdamW. Cela suggère que l'on peut privilégier SGD à AdamW pour RLVR, au moins. J'ai plusieurs questions en tête auxquelles je tenterai de répondre par mes propres expériences prochainement. > Où se situe exactement la frontière entre le « sous-espace sûr pour SGD » et « l'espace complet nécessaire à adamW » après l'entraînement ? > Peut-on transformer systématiquement le petit sous-réseau actif de RLVR/SGD en une pile d'adaptateurs modulaires et réutilisables pour l'entraînement multi-domaine ? > lorsque vous forcez le post-entraînement à fonctionner dans ces minuscules sous-espaces structurés (trouvés par RLVR/SGD ou conçus comme LoRA), comment les propriétés globales du modèle changent-elles par rapport à l'espace complet adamW RLHF/RLVR ? Je dois réfléchir à des expériences propres à petite échelle pour cela et je mettrai ce fil de discussion à jour. Cela n'aura peut-être pas beaucoup de résultats au-delà de RLVR, mais la question reste encore largement inexplorée.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.