X (Twitter)

4/4 Cursor 的 Composer 模型訓練的實體基礎設施。他們聲稱已經在數千個GPU上進行了訓練（並且仍在繼續訓練）。他們以低精度訓練模型，並使用非同步強化學習（下一條推文將解釋它是什麼）。引述：「我們利用 PyTorch 和 Ray 建造了客製化的訓練基礎設施，以大規模支援非同步強化學習。我們透過將 MXFP8 MoE 核心與專家並行和混合分片資料並行相結合，以低精度對模型進行原生訓練，從而使我們能夠以最小的通訊成本將訓練擴展到數千個 NVIDIA GPU。此外，使用 MXFP8 進行訓練可以讓我們達到更快的推理速度，而無需進行訓練後量化。

5/5 Customer Composer 模型訓練中所使用的非同步強化學習是什麼？它採用多層非同步執行，以避免等待緩慢的操作，例如長時間的發布生成。如您所知，對於給定的問題，在強化學習（例如GRPO）中，我們會產生多條軌跡。然而，有些軌跡可能需要太長時間才能完成。所以，一旦他們收集到足夠的軌跡數據，他們就會進行訓練。部分樣本/推廣工作稍後會使用更新後的模型恢復。這會導致部分令牌由舊模型/策略生成，而部分令牌由新模型/策略生成。不過，這可以接受。如果您想了解更多關於非同步強化學習的內容，請閱讀 APRIL—一個用於非同步強化學習的專案。

來自 GDP（@bookwormengr）的推文串

作者資訊

推文串內容