X (Twitter)

すごいですね。Thinking Machine のアプローチで「効率が飛躍的に向上」しました🚀🚀🚀 「MOPD を使用したポストトレーニング: Thinking Machine の On-Policy-Distillation を採用して複数の RL モデルを統合したところ、効率性が大幅に向上しました。標準の SFT + RL パイプラインの 50 分の 1 以下の計算を使用して、教師モデルのパフォーマンスに匹敵しました。生徒がより強力な教師へと進化するという自己強化ループへの明確な道筋がここにあります。」

GDP（@bookwormengr）のスレッド

作者情報

スレッド内容