在 neurips 会议上和 @_vaishnavh 聊了聊下一个标记预测 + 教师强制的失败,他提出了一个很棒的最小合成问题,在我看来,这个问题涵盖了“推理”的所有问题/原因。 1/5
首先构建一个“星形图”,其中包含一个中心节点和从该节点延伸出的几条“路径”,以此生成序列。 因此,中心节点的邻居数量与分支数量相同,分支末端只有一个邻居,所有其他节点都有两个邻居。 2/5
然后,“问题”是一个提示,由边的列表(以节点 ID 对的形式)组成,后面跟着中心节点的 ID 和目标节点的 ID。 “答案”应该是从中心到目标路径上的节点 ID 列表。 3/5
现在,当你用这个模型训练 GPT 时,解路径中的每个节点(除了中心节点)都很容易预测。因为它最多只有两个邻居,所以只需检查是哪两个,也就是路径中已有的那个,就大功告成了。梯度下降法非常奏效。逻辑值模型也很棒。 4/5
中心节点依然存在:对于这个节点,你基本上需要探索*所有分支*才能知道该往哪里走,而且在这一切构建完成之前,梯度什么也看不到。 这正是道理:只有探索过各种复杂的选择,才能知道哪个才是好的。 5/5