Cursor Composer 是怎麼建構的? 來自@cursor_ai 研究員@srush_nlp 在@anyscalecompute Ray Summit 的主題演講,焦點在於技術創新、挑戰與實際應用,強調了強化學習在建立專用AI 模型中的作用。 Composer 的核心特徵與動機 Rush 首先解釋了Composer 的性能亮點:在Cursor 的內部基準測試中,它的表現接近頂級前沿模型,優於2024年夏季發布的模型、最佳開源模型以及標榜「快速」的編碼模型。同時,它在token 生成效率上領先同類智慧模型4 倍,並在實際編輯器中使用時顯著更快。這使得Composer 不僅僅是“聰明”,還“感覺”快速,用戶能保持連續的思維流程,而不是等待漫長的回應。 建立Composer 的靈感來自Cursor 應用的熱門功能「Cursor Tab」。隨後,團隊開發了名為「Cheetah」 的原型智能體模型,使用者形容其如「外星科技」。基於此,目標是創建更聰明的版本,同時保留高效能。 Rush 強調,智慧不是追求通用基準,而是針對真實編碼場景:如處理大型程式碼庫、遵守程式碼風格標準。這些要素對日常軟體開發至關重要。 此外,Composer 強調「感覺快速」:不僅token 生成高效,還利用平行工具呼叫(如同時搜尋程式碼、運行終端命令、編輯檔案),讓整個過程在幾秒鐘內完成。 Rush 透過示範影片展現了這項體驗:使用者提交查詢後,智能體立即多執行緒執行工具,快速產生編輯和總結,與傳統智慧體的緩慢迭代形成鮮明對比。 技術實作:智慧體RL 與基礎設施演講的核心部分是Composer 的建構方法。 Rush 簡要概述了Cursor 的工作機制:使用者查詢傳送到後端,智慧體產生token,形成XML 格式的工具呼叫(如讀取檔案、編輯、程式碼搜尋、執行指令)。這些工具可串列或並行執行,智能體在IDE 中即時顯示變化。 Composer 採用強化學習(RL)訓練:從使用者查詢開始,模擬多個「rollout」(路徑),每個路徑使用不同工具序列嘗試解決問題。然後評分這些路徑(例如,哪個更有效),並據此更新模型參數。這類似於並行運行多個Cursor 實例,優化最佳路徑。 Rush 討論了三大挑戰: 1. 訓練與推理配對:使用大規模混合專家(MoE)模型,在數千GPU 上分散式訓練。團隊開發自訂內核,支援低精準度(MXFP8)訓練,提升速度3.5倍(尤其在Blackwell 晶片上),並無需額外量化。 2. 複雜rollout:真實編碼任務涉及10 萬到百萬token 和數百工具調用,時間不均。使用Ray 框架管理負載平衡,避免「拖尾」問題(某些路徑過慢)。 3. 一致性:訓練環境需模擬生產Cursor,包括相同工具回應。團隊重複使用Cursor 的「雲端智能體」基礎設施,使用microVM 建立狀態化環境,支援檔案修改和指令執行。同時,整合自訂嵌入模型進行語義搜索,幫助智能體有效定位文件。 這些基礎設施決策(如PyTorch 訓練伺服器、Ray 推理伺服器、VM 環境伺服器的整合)是成功關鍵,確保訓練與實際部署無縫銜接。 成果、見解與未來展望在發布一週後,Rush 分享了初步成果:隨著RL 迭代,模型效能從開源層級穩步提升至發布版,證明了計算投入的有效性。模型學會了更多並行工具調用,減少了盲目編輯,轉而更多閱讀和搜索,提高準確性。使用者回饋積極,認為速度與智慧的結合改變了編碼習慣-從「啟動智能體後等待」轉為「快速迭代解決問題」。 Rush 的反思包括: · RL 特別適合建構領域專化模型,而非通用LLM。 · AI 改變研發流程:團隊使用自家智能體建構儀錶板和後端,加速小團隊迭代。 · 基礎設施是RL 的核心驅動力,涉及產品、規模與ML的深度整合。 視訊位址:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
