Rednote, au fait. Mais comme dans l'article de Nvidia, il ne s'agit pas d'un « préentraînement à partir de zéro », mais simplement d'une autre étape d'entraînement. Qwen, bien sûr. Je pense que cela va se généraliser ; en gros, ça simplifie considérablement les pratiques actuelles complexes liées aux données synthétiques et à la régression par renforcement. La longueur de la réponse est un fait intéressant 👀
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

