X (Twitter)

Tout simplement bluffant ! Des gains d'efficacité incroyables grâce à l'approche de Thinking Machine ! 🚀🚀🚀 « Après l'entraînement avec MOPD : nous avons adopté On-Policy-Distillation de Thinking Machine pour fusionner plusieurs modèles RL, et les gains d'efficacité ont été incroyables. » Nous avons égalé les performances du modèle enseignant en utilisant moins de 1/50e de la puissance de calcul d'un pipeline SFT+RL standard. Il existe ici une voie claire pour un cercle vertueux où l'élève évolue vers un enseignant plus compétent.

Fil de GDP (@bookwormengr)

Informations sur l'auteur

Contenu du fil