X (Twitter)

在 neurips 會議上和 @_vaishnavh 聊了聊下一個標記預測 + 教師強制的失敗，他提出了一個很棒的最小合成問題，在我看來，這個問題涵蓋了「推理」的所有問題/原因。 1/5

首先建立一個“星形圖”，其中包含一個中心節點和從該節點延伸出的幾條“路徑”，以此產生序列。因此，中心節點的鄰居數量與分支數量相同，分支末端只有一個鄰居，所有其他節點都有兩個鄰居。 2/5

然後，「問題」是一個提示，由邊的列表（以節點 ID 對的形式）組成，後面跟著中心節點的 ID 和目標節點的 ID。「答案」應該是從中心到目標路徑上的節點 ID 清單。 3/5

現在，當你用這個模型訓練 GPT 時，解路徑中的每個節點（除了中心節點）都很容易預測。因為它最多只有兩個鄰居，所以只要檢查是哪兩個，也就是路徑中已有的那個，就大功告成了。梯度下降法非常奏效。邏輯值模型也很棒。 4/5

中心節點仍然存在：對於這個節點，你基本上需要探索*所有分支*才能知道該往哪裡走，而且在這一切構建完成之前，梯度什麼也看不到。這正是道理：只有探索過各種複雜的選擇，才能知道哪個才是好的。 5/5

來自 François Fleuret（@francoisfleuret）的推文串