« L’un des aspects les plus déroutants concernant les modèles actuellement : comment concilier le fait qu’ils obtiennent d’aussi bons résultats aux évaluations. » Et quand on regarde les évaluations, on se dit : « Ce sont des évaluations plutôt difficiles. » Mais l'impact économique semble être considérablement en retard. Il existe une explication possible. À l'époque du pré-entraînement, la question du choix des données d'entraînement était résolue, car la réponse était déterminante. Il n'était donc plus nécessaire de se demander s'il fallait utiliser telle ou telle donnée. Lorsqu'on organise une formation en apprentissage par renforcement, on dit : « D'accord, nous voulons ce type de formation en apprentissage par renforcement pour ceci et ce type de formation en apprentissage par renforcement pour cela. » Vous dites : « J'aimerais vraiment que notre modèle fonctionne très bien lors de sa sortie. Je veux que les évaluations soient excellentes. Quel type d'entraînement par renforcement pourrait nous aider à atteindre cet objectif ? » Si l'on combine cela avec le constat que les modèles sont en réalité inadéquats, cela pourrait expliquer une grande partie de ce que nous observons, à savoir ce décalage entre les performances évaluées et les performances réelles.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.