X (Twitter)

Cursor 的 1/4 自主研發的編碼模型編輯器處於技術前沿，速度更快，價格更低，是其他產品的 4 倍。這有助於 Cursor 減少對 OpenAI 和 Anthropic 的依賴。既然可以建立自己的模型，為什麼還要改進他們的模型呢？

2/4 他們對教育部模型（大多以中國模型為基礎模型）進行了大規模強化學習。強化學習模型自動學習了並行呼叫工具，並在修改程式碼之前進行更多讀取和搜尋。這種行為是自然而然形成的。

3/4 他們是如何發展 RL 環境來收集 RL 軌跡的？他們重新利用了後台代理基礎設施。 “在強化學習過程中，我們希望我們的模型能夠調用 Cursor Agent 框架中的任何工具。這些工具允許編輯程式碼、使用語義搜尋、搜尋字串以及運行終端命令。” 以我們目前的規模，要教會模型有效地調用這些工具，需要在雲端運行數十萬個並發的沙盒編碼環境。為了支援這項工作負載，我們調整了為後台代理程式建置的現有基礎設施，重寫了我們的虛擬機器調度程序，以支援訓練運行的突發和規模。這使得強化學習環境與生產環境能夠無縫融合。

4/4 Cursor 的 Composer 模型訓練的實體基礎設施。他們聲稱已經在數千個GPU上進行了訓練（並且仍在繼續訓練）。他們以低精度訓練模型，並使用非同步強化學習（下一條推文將解釋它是什麼）。引述：「我們利用 PyTorch 和 Ray 建造了客製化的訓練基礎設施，以大規模支援非同步強化學習。我們透過將 MXFP8 MoE 核心與專家並行和混合分片資料並行相結合，以低精度對模型進行原生訓練，從而使我們能夠以最小的通訊成本將訓練擴展到數千個 NVIDIA GPU。此外，使用 MXFP8 進行訓練可以讓我們達到更快的推理速度，而無需進行訓練後量化。

5/5 Customer Composer 模型訓練中所使用的非同步強化學習是什麼？它採用多層非同步執行，以避免等待緩慢的操作，例如長時間的發布生成。如您所知，對於給定的問題，在強化學習（例如GRPO）中，我們會產生多條軌跡。然而，有些軌跡可能需要太長時間才能完成。所以，一旦他們收集到足夠的軌跡數據，他們就會進行訓練。部分樣本/推廣工作稍後會使用更新後的模型恢復。這會導致部分令牌由舊模型/策略生成，而部分令牌由新模型/策略生成。不過，這可以接受。如果您想了解更多關於非同步強化學習的內容，請閱讀 APRIL—一個用於非同步強化學習的專案。

來自 GDP（@bookwormengr）的推文串

作者資訊

推文串內容