Tout simplement bluffant ! Des gains d'efficacité incroyables grâce à l'approche de Thinking Machine ! 🚀🚀🚀 « Après l'entraînement avec MOPD : nous avons adopté On-Policy-Distillation de Thinking Machine pour fusionner plusieurs modèles RL, et les gains d'efficacité ont été incroyables. » Nous avons égalé les performances du modèle enseignant en utilisant moins de 1/50e de la puissance de calcul d'un pipeline SFT+RL standard. Il existe ici une voie claire pour un cercle vertueux où l'élève évolue vers un enseignant plus compétent.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.