现在,当你用这个模型训练 GPT 时,解路径中的每个节点(除了中心节点)都很容易预测。因为它最多只有两个邻居,所以只需检查是哪两个,也就是路径中已有的那个,就大功告成了。梯度下降法非常奏效。逻辑值模型也很棒。 4/5
中心节点依然存在:对于这个节点,你基本上需要探索*所有分支*才能知道该往哪里走,而且在这一切构建完成之前,梯度什么也看不到。 这正是道理:只有探索过各种复杂的选择,才能知道哪个才是好的。 5/5
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月8日 14:54
现在,当你用这个模型训练 GPT 时,解路径中的每个节点(除了中心节点)都很容易预测。因为它最多只有两个邻居,所以只需检查是哪两个,也就是路径中已有的那个,就大功告成了。梯度下降法非常奏效。逻辑值模型也很棒。 4/5
中心节点依然存在:对于这个节点,你基本上需要探索*所有分支*才能知道该往哪里走,而且在这一切构建完成之前,梯度什么也看不到。 这正是道理:只有探索过各种复杂的选择,才能知道哪个才是好的。 5/5