J'ai entendu beaucoup trop d'interprétations erronées (à mon avis) du « RL » de DeepSeek R1 par rapport à SFT hier à #NeurIPS2025 ! 🤦♂️ Avec le MDP dégénéré utilisé par R1, qui répartit la récompense du vérificateur de la solution équitablement entre tous les jetons intermédiaires et de solution, le RL de R1 est en réalité une forme filtrée/itérative de SFT ! Venez en discuter avec nous aux ateliers LAW et ForLM dimanche… 👇
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
