X (Twitter)

Cursor Composer はどのように構築されますか? @cursor_ai の研究員である @srush_nlp による @anyscalecompute Ray Summit での基調講演では、技術革新、課題、実用的なアプリケーションに焦点が当てられ、特殊な AI モデルの構築における強化学習の役割が強調されました。 Composerのコア機能と動機 Rush氏はまず、Composerのパフォーマンスのハイライトについて説明しました。Cursorの社内ベンチマークでは、そのパフォーマンスは最先端モデルに迫り、2024年夏にリリースされたモデル、最高のオープンソースモデル、そして「高速」と謳われているモデルさえも凌駕しました。さらに、トークン生成効率においては類似のインテリジェントモデルを4倍上回り、実際のエディタ使用においても大幅に高速化しました。これにより、Composerは「スマート」であるだけでなく「高速」な「体感」も得られ、ユーザーは長い応答を待つことなく、継続的な思考プロセスを維持できます。 Composerのインスピレーションは、Cursorアプリの人気機能「カーソルタブ」から生まれました。その後、チームは「Cheetah」と呼ばれるプロトタイプのインテリジェントエージェントモデルを開発しました。これはユーザーから「エイリアンテクノロジー」と評されました。これを基に、効率性を維持しながらよりスマートなバージョンを作成することが目標でした。Rush氏は、インテリジェンスとは一般的なベンチマークを追求することではなく、大規模なコードベースの処理やコーディングスタイルの標準への準拠といった、現実世界のコーディングシナリオに対応することにあると強調しています。これらの要素は、日々のソフトウェア開発において非常に重要です。さらに、Composerは「体感速度」を重視しています。トークン生成が効率的であるだけでなく、並列ツール呼び出し（コード検索、ターミナルコマンドの実行、ファイルの編集など）を活用して、プロセス全体を数秒で完了します。Rushはデモビデオでこの体験を実演しました。ユーザーがクエリを送信すると、エージェントは即座にマルチスレッド方式でツールを実行し、編集内容と要約を迅速に生成します。これは、従来のエージェントの遅い反復処理とは対照的です。技術的実装：エージェント強化学習とインフラストラクチャに関するプレゼンテーションの中核は、Composer構築手法です。Rushはカーソルの動作メカニズムについて簡単に説明します。ユーザークエリはバックエンドに送信され、エージェントはトークンを生成し、XML形式でツール呼び出し（ファイルの読み取り、編集、コード検索、コマンド実行など）を形成します。これらのツールはシリアルまたは並列で実行でき、エージェントはIDEにリアルタイムで変更を表示します。 Composerは強化学習（RL）を用いて学習します。ユーザークエリから開始し、複数の「ロールアウト」（パス）をシミュレートします。各パスは、異なるツールシーケンスを用いて問題の解決を試みます。その後、これらのパスはスコアリングされ（例えば、どのパスがより効果的か）、それに応じてモデルパラメータが更新されます。これは、複数のCursorインスタンスを並列に実行して最適なパスを最適化するのに似ています。ラッシュ氏は3つの大きな課題について論じた。 1. 学習と推論マッチング：大規模ハイブリッドエキスパート（MoE）モデルを用いて、数千台のGPUに分散学習を実施します。チームは低精度（MXFP8）学習をサポートするカスタムカーネルを開発し、追加の量子化を必要とせずに3.5倍の高速化（特にBlackwellチップ使用時）を達成しました。 2. 複雑なロールアウト：現実世界のコーディングタスクでは、10万から数百万のトークンと数百回のツール呼び出しが伴い、実行時間が不均一になります。Rayフレームワークは、負荷分散を管理し、「テーリング」（一部のパスが遅すぎる）の問題を回避するために使用されます。 3. 一貫性：トレーニング環境は、ツールの応答を含め、本番環境のCursorをシミュレートする必要があります。チームはCursorの「クラウドエージェント」インフラストラクチャを再利用し、microVMを用いてファイルの変更とコマンド実行をサポートするステートフルな環境を構築しました。同時に、セマンティック検索用のカスタム埋め込みモデルを統合し、エージェントが効率的にファイルを見つけられるようにしています。これらのインフラストラクチャの決定 (PyTorch トレーニングサーバー、Ray 推論サーバー、VM 環境サーバーの統合など) は成功の鍵となり、トレーニングと実際のデプロイメント間のシームレスな移行を保証します。リリースから1週間後、Rushは初期結果、洞察、そして今後の展望を共有しました。RLの各イテレーションにおいて、モデルのパフォーマンスはオープンソースレベルからリリースバージョンへと着実に向上し、計算投資の有効性が実証されました。モデルはより多くの並列ツールの使用を学習し、ブラインドエディティングを減らし、代わりに読み取りと検索に集中することで、精度が向上しました。ユーザーからのフィードバックは好意的で、スピードとインテリジェンスの組み合わせによって、コーディングの習慣が「エージェントを起動して待つ」から「問題を迅速にイテレーションして解決する」へと変化したとユーザーは感じています。ラッシュ氏の感想は次のとおりです。 • RL は、汎用 LLM ではなく、ドメイン固有のモデルの構築に特に適しています。 AI は研究開発プロセスを変革しました。チームは独自の AI エージェントを使用してダッシュボードとバックエンドを構築し、小規模チームの反復を加速しています。 • インフラストラクチャは RL の中核的な推進力であり、製品、スケール、ML の緊密な統合を伴います。ビデオアドレス:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容