J'avais oublié le plus important : avant DS-Math, seul Frontier pouvait gérer le RL, car PPO était trop complexe et DPO pas assez performant. Ironiquement, GRPO est à la fois leur contribution la plus banale et la plus marquante. De plus : avant R1, seul Frontier proposait un apprentissage par renforcement (RL) efficace basé sur les résultats.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
