Tuve una charla en neurips con @_vaishnavh sobre el fracaso de la predicción del siguiente token + forzamiento del profesor, y tiene este maravilloso problema sintético mínimo que, en mi opinión, abarca todos los problemas con / razón para "razonamiento". 1/5
Se generará una secuencia construyendo primero un "gráfico de estrella" con un nodo central y varios "caminos" que se extienden desde allí. Entonces, el nodo central tiene tantos vecinos como ramas, los extremos de las ramas tienen un solo vecino y todos los demás nodos tienen dos. 2/5
Luego, la "pregunta" es un mensaje compuesto por la lista de bordes como pares de identificaciones de nodos, seguido por la identificación del nodo central y la identificación de un nodo objetivo. La "respuesta" debe ser una lista de identificadores de nodos a lo largo de la ruta desde el centro hasta el objetivo. 3/5
Ahora bien, al enseñarle a un gpt esto, es obvio predecir cada nodo (excepto el central) en la ruta de la solución. Dado que solo tiene dos vecinos como máximo, basta con comprobar cuáles son, el que ya está en la ruta, y listo. El descenso de gradiente es excelente. Los logits son geniales. 4/5
Quedan los nodos centrales: Para esto básicamente hay que haber explorado *todas las ramas* para saber hacia donde ir, y hasta que todo esto no esté construido, el gradiente no ve nada. Es exactamente el razonamiento: hasta que no hayas explorado opciones complejas, no podrás saber cuál es la buena. 5/5