5/5 Customer Composer 模型訓練中所使用的非同步強化學習是什麼? 它採用多層非同步執行,以避免等待緩慢的操作,例如長時間的發布生成。 如您所知,對於給定的問題,在強化學習(例如GRPO)中,我們會產生多條軌跡。然而,有些軌跡可能需要太長時間才能完成。 所以,一旦他們收集到足夠的軌跡數據,他們就會進行訓練。 部分樣本/推廣工作稍後會使用更新後的模型恢復。這會導致部分令牌由舊模型/策略生成,而部分令牌由新模型/策略生成。 不過,這可以接受。如果您想了解更多關於非同步強化學習的內容,請閱讀 APRIL—一個用於非同步強化學習的專案。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
