Maintenant, lorsqu'on entraîne un algorithme GPT sur ce modèle, chaque nœud (sauf le nœud central) du chemin de solution est facile à prédire. Comme il n'a que deux voisins au maximum, il suffit de vérifier lequel est déjà présent sur le chemin, et le tour est joué. La descente de gradient est particulièrement efficace. Les logits sont excellents. 4/5
Restent les nœuds centraux : pour celui-ci, il faut essentiellement avoir exploré *toutes les branches* pour savoir où aller, et tant que tout cela n’a pas été construit, le gradient ne voit rien. C'est précisément le raisonnement suivant : tant que vous n'avez pas exploré des options complexes, vous ne pouvez pas connaître la bonne. 5/5