4/4 Cursor 的 Composer 模型訓練的實體基礎設施。 他們聲稱已經在數千個GPU上進行了訓練(並且仍在繼續訓練)。他們以低精度訓練模型,並使用非同步強化學習(下一條推文將解釋它是什麼)。 引述:「我們利用 PyTorch 和 Ray 建造了客製化的訓練基礎設施,以大規模支援非同步強化學習。 我們透過將 MXFP8 MoE 核心與專家並行和混合分片資料並行相結合,以低精度對模型進行原生訓練,從而使我們能夠以最小的通訊成本將訓練擴展到數千個 NVIDIA GPU。 此外,使用 MXFP8 進行訓練可以讓我們達到更快的推理速度,而無需進行訓練後量化。
5/5 Customer Composer 模型訓練中所使用的非同步強化學習是什麼? 它採用多層非同步執行,以避免等待緩慢的操作,例如長時間的發布生成。 如您所知,對於給定的問題,在強化學習(例如GRPO)中,我們會產生多條軌跡。然而,有些軌跡可能需要太長時間才能完成。 所以,一旦他們收集到足夠的軌跡數據,他們就會進行訓練。 部分樣本/推廣工作稍後會使用更新後的模型恢復。這會導致部分令牌由舊模型/策略生成,而部分令牌由新模型/策略生成。 不過,這可以接受。如果您想了解更多關於非同步強化學習的內容,請閱讀 APRIL—一個用於非同步強化學習的專案。
