Cursor 的 1/4 自主研發的編碼模型編輯器處於技術前沿,速度更快,價格更低,是其他產品的 4 倍。 這有助於 Cursor 減少對 OpenAI 和 Anthropic 的依賴。既然可以建立自己的模型,為什麼還要改進他們的模型呢?
2/4 他們對教育部模型(大多以中國模型為基礎模型)進行了大規模強化學習。 強化學習模型自動學習了並行呼叫工具,並在修改程式碼之前進行更多讀取和搜尋。這種行為是自然而然形成的。
3/4 他們是如何發展 RL 環境來收集 RL 軌跡的? 他們重新利用了後台代理基礎設施。 “在強化學習過程中,我們希望我們的模型能夠調用 Cursor Agent 框架中的任何工具。這些工具允許編輯程式碼、使用語義搜尋、搜尋字串以及運行終端命令。” 以我們目前的規模,要教會模型有效地調用這些工具,需要在雲端運行數十萬個並發的沙盒編碼環境。 為了支援這項工作負載,我們調整了為後台代理程式建置的現有基礎設施,重寫了我們的虛擬機器調度程序,以支援訓練運行的突發和規模。 這使得強化學習環境與生產環境能夠無縫融合。
4/4 Cursor 的 Composer 模型訓練的實體基礎設施。 他們聲稱已經在數千個GPU上進行了訓練(並且仍在繼續訓練)。他們以低精度訓練模型,並使用非同步強化學習(下一條推文將解釋它是什麼)。 引述:「我們利用 PyTorch 和 Ray 建造了客製化的訓練基礎設施,以大規模支援非同步強化學習。 我們透過將 MXFP8 MoE 核心與專家並行和混合分片資料並行相結合,以低精度對模型進行原生訓練,從而使我們能夠以最小的通訊成本將訓練擴展到數千個 NVIDIA GPU。 此外,使用 MXFP8 進行訓練可以讓我們達到更快的推理速度,而無需進行訓練後量化。
5/5 Customer Composer 模型訓練中所使用的非同步強化學習是什麼? 它採用多層非同步執行,以避免等待緩慢的操作,例如長時間的發布生成。 如您所知,對於給定的問題,在強化學習(例如GRPO)中,我們會產生多條軌跡。然而,有些軌跡可能需要太長時間才能完成。 所以,一旦他們收集到足夠的軌跡數據,他們就會進行訓練。 部分樣本/推廣工作稍後會使用更新後的模型恢復。這會導致部分令牌由舊模型/策略生成,而部分令牌由新模型/策略生成。 不過,這可以接受。如果您想了解更多關於非同步強化學習的內容,請閱讀 APRIL—一個用於非同步強化學習的專案。


