現在,當你用這個模型訓練 GPT 時,解路徑中的每個節點(除了中心節點)都很容易預測。因為它最多只有兩個鄰居,所以只要檢查是哪兩個,也就是路徑中已有的那個,就大功告成了。梯度下降法非常奏效。邏輯值模型也很棒。 4/5
中心節點仍然存在:對於這個節點,你基本上需要探索*所有分支*才能知道該往哪裡走,而且在這一切構建完成之前,梯度什麼也看不到。 這正是道理:只有探索過各種複雜的選擇,才能知道哪個才是好的。 5/5
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月8日 下午2:54
現在,當你用這個模型訓練 GPT 時,解路徑中的每個節點(除了中心節點)都很容易預測。因為它最多只有兩個鄰居,所以只要檢查是哪兩個,也就是路徑中已有的那個,就大功告成了。梯度下降法非常奏效。邏輯值模型也很棒。 4/5
中心節點仍然存在:對於這個節點,你基本上需要探索*所有分支*才能知道該往哪裡走,而且在這一切構建完成之前,梯度什麼也看不到。 這正是道理:只有探索過各種複雜的選擇,才能知道哪個才是好的。 5/5