Cet article de blog aborde les limites du « reward hacking » dans SFT et RL. Comparaison de trois méthodes de formation : SFT (Réglage fin supervisé) Échantillonnage : ❌ Stratégie de distanciation (trajectoire de l'enseignant) Récompense : ✅ Dense (par jeton) Question : Erreurs composées en mode étudiant RL (Apprentissage par renforcement) Échantillonnage : ✅ Dans la stratégie (extrait des travaux des étudiants) Récompense : ❌ Rare (résultat final uniquement) Problème : Un seul signal par épisode, faible efficacité. Si elle est utilisée dans la distillation des politiques, l'échantillonnage sera mieux résolu : ✅ Dans la politique (trajectoire de l'étudiant) Récompense : ✅ Dense (Les enseignants marquent des points pour chaque jeton) Pour une compréhension plus approfondie de cette question, je recommande cet article de Bojie : https://t.co/r9r14GGZ3u
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.