4/4 Cursor の Composer モデル トレーニング用の物理インフラストラクチャ。 彼らは数千のGPUでトレーニングした(そして現在もトレーニングを続けている)と主張しています。モデルは低精度でトレーニングされており、非同期強化学習(非同期強化学習とは何かについては次のツイートで説明します)を使用しています。 引用: 「私たちは、PyTorch と Ray を活用したカスタム トレーニング インフラストラクチャを構築し、大規模な非同期強化学習を実現しました。 当社では、MXFP8 MoE カーネルをエキスパート並列処理およびハイブリッド シャード データ並列処理と組み合わせることで、低精度でモデルをネイティブにトレーニングし、最小限の通信コストでトレーニングを数千の NVIDIA GPU に拡張できるようにしています。 さらに、MXFP8 を使用したトレーニングにより、トレーニング後の量子化を必要とせずに推論速度を向上させることができます。」
5/5 Customer Composer モデルトレーニングで使用される非同期 RL とは何ですか? 長いロールアウト生成などの遅い操作を待機することを避けるために、複数のレベルで非同期実行を使用します。 ご存知の通り、GRPOのような強化学習では、与えられた問題に対して複数の軌道を生成します。しかし、軌道によっては完了までに時間がかかりすぎる場合があります。 したがって、十分な軌跡が得られたら、トレーニングを実行します。 部分的なサンプル/ロールアウトは、更新されたモデルを使用して後から再開されます。これにより、一部のトークンは古いモデル/ポリシーによって生成され、一部は新しいモデル/ポリシーによって生成されるという状況が発生します。 ただし、これは許容範囲です。非同期強化学習についてさらに詳しく知りたい場合は、非同期強化学習プロジェクト「APRIL」をご覧ください。
