すごいですね。Thinking Machine のアプローチで「効率が飛躍的に向上」しました🚀🚀🚀 「MOPD を使用したポストトレーニング: Thinking Machine の On-Policy-Distillation を採用して複数の RL モデルを統合したところ、効率性が大幅に向上しました。 標準の SFT + RL パイプラインの 50 分の 1 以下の計算を使用して、教師モデルのパフォーマンスに匹敵しました。 生徒がより強力な教師へと進化するという自己強化ループへの明確な道筋がここにあります。」
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。