Un peu en retard, mais j'ai lu l'article de Deepseek Math v2. Il s'agit du premier et unique travail reproduisant le succès rencontré dans le domaine des logiciels propriétaires, à savoir IMO Gold, en utilisant de grands modèles de langage. Il n'y a pas grand-chose de nouveau ici. Si je devais désigner ce qui ressort, ce serait : > simplement l'idée que le fait de récompenser les bonnes réponses ne garantit pas un raisonnement correct Nous entraînons donc un vérificateur sur des données évaluées par des experts parmi 17,5k. > Nous formons un méta-vérificateur pour nous assurer que le vérificateur n'évalue pas incorrectement les réponses. C'est en fait aussi simple que cela en a l'air, et une partie de moi s'attendait à ce que le modèle open source IMO Gold utilise quelque chose de plus sophistiqué. J'avais quelques théories personnelles que je voulais voir validées ou réfutées, mais je suppose que lorsque nous passerons à des modèles généralistes dotés de telles capacités, nous pourrons le constater. D’ici là, c’est un excellent phare dans la nuit, avec une approche relativement simple mais gourmande en ressources de calcul et s’appuyant sur la curation des données, qui nous permet d’obtenir quelque chose qui était considéré comme incroyablement difficile pour les modèles jusqu’à l’année dernière.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
