X (Twitter)

现在，当你用这个模型训练 GPT 时，解路径中的每个节点（除了中心节点）都很容易预测。因为它最多只有两个邻居，所以只需检查是哪两个，也就是路径中已有的那个，就大功告成了。梯度下降法非常奏效。逻辑值模型也很棒。 4/5

中心节点依然存在：对于这个节点，你基本上需要探索*所有分支*才能知道该往哪里走，而且在这一切构建完成之前，梯度什么也看不到。这正是道理：只有探索过各种复杂的选择，才能知道哪个才是好的。 5/5

来自 François Fleuret（@francoisfleuret）的推文线程