在 neurips 會議上和 @_vaishnavh 聊了聊下一個標記預測 + 教師強制的失敗,他提出了一個很棒的最小合成問題,在我看來,這個問題涵蓋了「推理」的所有問題/原因。 1/5
首先建立一個“星形圖”,其中包含一個中心節點和從該節點延伸出的幾條“路徑”,以此產生序列。 因此,中心節點的鄰居數量與分支數量相同,分支末端只有一個鄰居,所有其他節點都有兩個鄰居。 2/5
然後,「問題」是一個提示,由邊的列表(以節點 ID 對的形式)組成,後面跟著中心節點的 ID 和目標節點的 ID。 「答案」應該是從中心到目標路徑上的節點 ID 清單。 3/5
現在,當你用這個模型訓練 GPT 時,解路徑中的每個節點(除了中心節點)都很容易預測。因為它最多只有兩個鄰居,所以只要檢查是哪兩個,也就是路徑中已有的那個,就大功告成了。梯度下降法非常奏效。邏輯值模型也很棒。 4/5
中心節點仍然存在:對於這個節點,你基本上需要探索*所有分支*才能知道該往哪裡走,而且在這一切構建完成之前,梯度什麼也看不到。 這正是道理:只有探索過各種複雜的選擇,才能知道哪個才是好的。 5/5