X (Twitter)

1/4 Cursor 独自のコーディングモデルコンポーザーは最先端の技術であり、4 倍高速で安価です。これにより、CursorはOpenAIとAnthropicへの依存を減らすことができます。自分でモデルを構築できるのに、なぜOpenAIとAnthropicのモデルを改善する必要があるのでしょうか？

2/4 MoEモデル（主に中国のモデルをベースモデルとして）で大規模な強化学習を実施しました。強化学習モデルは、並列ツール呼び出しと、コード変更を行う前により多くの読み取りと検索を自動的に学習しました。この動作は有機的に現れました。

3/4 RL の軌跡を収集するための RL 環境はどのように開発されたのでしょうか? 彼らはバックグラウンドエージェントのインフラストラクチャを再利用しました。引用「強化学習中、モデルがカーソルエージェントハーネス内の任意のツールを呼び出せるようにしたいと考えています。これらのツールを使用すると、コードの編集、セマンティック検索の使用、文字列のgrep、ターミナルコマンドの実行が可能になります。私たちの規模では、これらのツールを効果的に呼び出すようにモデルに教えるには、クラウド内で数十万のサンドボックス化されたコーディング環境を同時に実行する必要があります。このワークロードをサポートするために、バックグラウンドエージェント用に構築した既存のインフラストラクチャを適応させ、トレーニング実行のバースト性とスケールをサポートするように仮想マシンスケジューラを書き直しました。これにより、RL 環境と本番環境をシームレスに統合できるようになりました。」

4/4 Cursor の Composer モデルトレーニング用の物理インフラストラクチャ。彼らは数千のGPUでトレーニングした（そして現在もトレーニングを続けている）と主張しています。モデルは低精度でトレーニングされており、非同期強化学習（非同期強化学習とは何かについては次のツイートで説明します）を使用しています。引用: 「私たちは、PyTorch と Ray を活用したカスタムトレーニングインフラストラクチャを構築し、大規模な非同期強化学習を実現しました。当社では、MXFP8 MoE カーネルをエキスパート並列処理およびハイブリッドシャードデータ並列処理と組み合わせることで、低精度でモデルをネイティブにトレーニングし、最小限の通信コストでトレーニングを数千の NVIDIA GPU に拡張できるようにしています。さらに、MXFP8 を使用したトレーニングにより、トレーニング後の量子化を必要とせずに推論速度を向上させることができます。」

5/5 Customer Composer モデルトレーニングで使用される非同期 RL とは何ですか? 長いロールアウト生成などの遅い操作を待機することを避けるために、複数のレベルで非同期実行を使用します。ご存知の通り、GRPOのような強化学習では、与えられた問題に対して複数の軌道を生成します。しかし、軌道によっては完了までに時間がかかりすぎる場合があります。したがって、十分な軌跡が得られたら、トレーニングを実行します。部分的なサンプル/ロールアウトは、更新されたモデルを使用して後から再開されます。これにより、一部のトークンは古いモデル/ポリシーによって生成され、一部は新しいモデル/ポリシーによって生成されるという状況が発生します。ただし、これは許容範囲です。非同期強化学習についてさらに詳しく知りたい場合は、非同期強化学習プロジェクト「APRIL」をご覧ください。

GDP（@bookwormengr）のスレッド

作者情報

スレッド内容