Imaginez apprendre à jouer à un jeu vidéo en ne regardant que le score final. C'est le principe de l'apprentissage par renforcement. Imaginez maintenant entraîner un modèle de raisonnement complexe de la même manière : c'est un gaspillage aberrant. Pourtant, c'est précisément ce à quoi les laboratoires de recherche de pointe consacrent des milliards.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.