J'ai discuté à neurips avec @_vaishnavh de l'échec de la prédiction du prochain jeton + du forçage de l'enseignant, et il a ce merveilleux problème synthétique minimal qui, à mon avis, englobe tous les problèmes liés au raisonnement / à sa raison d'être. 1/5
Une séquence sera générée en construisant d'abord un « graphe en étoile » avec un nœud central et plusieurs « chemins » s'étendant à partir de celui-ci. Ainsi, le nœud central a autant de voisins qu'il y a de branches, les extrémités des branches ont un seul voisin, et tous les autres nœuds en ont deux. 2/5
La « question » est alors une invite composée de la liste des arêtes sous forme de paires d'identifiants de nœuds, suivie de l'identifiant du nœud central et de l'identifiant d'un nœud cible. La « réponse » devrait être une liste d'identifiants de nœuds le long du chemin allant du centre à la cible. 3/5
Maintenant, lorsqu'on entraîne un algorithme GPT sur ce modèle, chaque nœud (sauf le nœud central) du chemin de solution est facile à prédire. Comme il n'a que deux voisins au maximum, il suffit de vérifier lequel est déjà présent sur le chemin, et le tour est joué. La descente de gradient est particulièrement efficace. Les logits sont excellents. 4/5
Restent les nœuds centraux : pour celui-ci, il faut essentiellement avoir exploré *toutes les branches* pour savoir où aller, et tant que tout cela n’a pas été construit, le gradient ne voit rien. C'est précisément le raisonnement suivant : tant que vous n'avez pas exploré des options complexes, vous ne pouvez pas connaître la bonne. 5/5