X (Twitter)

Cursor Composer 是怎麼建構的？來自@cursor_ai 研究員@srush_nlp 在@anyscalecompute Ray Summit 的主題演講，焦點在於技術創新、挑戰與實際應用，強調了強化學習在建立專用AI 模型中的作用。 Composer 的核心特徵與動機 Rush 首先解釋了Composer 的性能亮點：在Cursor 的內部基準測試中，它的表現接近頂級前沿模型，優於2024年夏季發布的模型、最佳開源模型以及標榜「快速」的編碼模型。同時，它在token 生成效率上領先同類智慧模型4 倍，並在實際編輯器中使用時顯著更快。這使得Composer 不僅僅是“聰明”，還“感覺”快速，用戶能保持連續的思維流程，而不是等待漫長的回應。建立Composer 的靈感來自Cursor 應用的熱門功能「Cursor Tab」。隨後，團隊開發了名為「Cheetah」的原型智能體模型，使用者形容其如「外星科技」。基於此，目標是創建更聰明的版本，同時保留高效能。 Rush 強調，智慧不是追求通用基準，而是針對真實編碼場景：如處理大型程式碼庫、遵守程式碼風格標準。這些要素對日常軟體開發至關重要。此外，Composer 強調「感覺快速」：不僅token 生成高效，還利用平行工具呼叫（如同時搜尋程式碼、運行終端命令、編輯檔案），讓整個過程在幾秒鐘內完成。 Rush 透過示範影片展現了這項體驗：使用者提交查詢後，智能體立即多執行緒執行工具，快速產生編輯和總結，與傳統智慧體的緩慢迭代形成鮮明對比。技術實作：智慧體RL 與基礎設施演講的核心部分是Composer 的建構方法。 Rush 簡要概述了Cursor 的工作機制：使用者查詢傳送到後端，智慧體產生token，形成XML 格式的工具呼叫（如讀取檔案、編輯、程式碼搜尋、執行指令）。這些工具可串列或並行執行，智能體在IDE 中即時顯示變化。 Composer 採用強化學習（RL）訓練：從使用者查詢開始，模擬多個「rollout」（路徑），每個路徑使用不同工具序列嘗試解決問題。然後評分這些路徑（例如，哪個更有效），並據此更新模型參數。這類似於並行運行多個Cursor 實例，優化最佳路徑。 Rush 討論了三大挑戰： 1. 訓練與推理配對：使用大規模混合專家（MoE）模型，在數千GPU 上分散式訓練。團隊開發自訂內核，支援低精準度（MXFP8）訓練，提升速度3.5倍（尤其在Blackwell 晶片上），並無需額外量化。 2. 複雜rollout：真實編碼任務涉及10 萬到百萬token 和數百工具調用，時間不均。使用Ray 框架管理負載平衡，避免「拖尾」問題（某些路徑過慢）。 3. 一致性：訓練環境需模擬生產Cursor，包括相同工具回應。團隊重複使用Cursor 的「雲端智能體」基礎設施，使用microVM 建立狀態化環境，支援檔案修改和指令執行。同時，整合自訂嵌入模型進行語義搜索，幫助智能體有效定位文件。這些基礎設施決策（如PyTorch 訓練伺服器、Ray 推理伺服器、VM 環境伺服器的整合）是成功關鍵，確保訓練與實際部署無縫銜接。成果、見解與未來展望在發布一週後，Rush 分享了初步成果：隨著RL 迭代，模型效能從開源層級穩步提升至發布版，證明了計算投入的有效性。模型學會了更多並行工具調用，減少了盲目編輯，轉而更多閱讀和搜索，提高準確性。使用者回饋積極，認為速度與智慧的結合改變了編碼習慣－從「啟動智能體後等待」轉為「快速迭代解決問題」。 Rush 的反思包括： · RL 特別適合建構領域專化模型，而非通用LLM。 · AI 改變研發流程：團隊使用自家智能體建構儀錶板和後端，加速小團隊迭代。 · 基礎設施是RL 的核心驅動力，涉及產品、規模與ML的深度整合。視訊位址：

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文