Bati um papo na Neurips com o @_vaishnavh sobre a falha da predição do próximo token + força do professor, e ele tem um problema sintético minimalista maravilhoso que, na minha opinião, engloba todos os problemas e a razão para o "raciocínio". 1/5
Uma sequência será gerada construindo-se primeiro um "grafo em estrela" com um nó central e vários "caminhos" que se estendem a partir dali. Assim, o nó central tem tantos vizinhos quantos forem os seus ramos, as extremidades dos ramos têm um único vizinho e todos os outros nós têm dois. 2/5
Então, a "pergunta" é um enunciado composto pela lista de arestas como pares de IDs de nós, seguida pelo ID do nó central e pelo ID de um nó de destino. A "resposta" deve ser uma lista de IDs de nós ao longo do caminho do centro ao destino. 3/5
Agora, quando você treina um GPT nisso, cada nó (exceto o central) no caminho da solução é fácil de prever. Como ele tem no máximo dois vizinhos, basta verificar quais são eles, aquele que já está no caminho, e pronto. O gradiente descendente funciona perfeitamente. Os algoritmos logit são ótimos. 4/5
Restam os nós centrais: Para este, você precisa basicamente ter explorado *todos os ramos* para saber para onde ir, e até que tudo isso seja construído, o gradiente não vê nada. É exatamente uma questão de raciocínio: até que você tenha explorado opções complexas, não poderá saber qual é a melhor. 5/5