簡直太棒了——Thinking Machine 的方法帶來了「巨大的效率提升」🚀🚀🚀 「使用 MOPD 訓練後:我們採用了 Thinking Machine 的 On-Policy-Distillation 來合併多個 RL 模型,效率提升非常顯著。 我們只用不到標準 SFT+RL 管線 1/50 的計算量就達到了教師模型的效能。 這裡存在著一個清晰的自我強化循環路徑,學生會在這個循環中成長為更優秀的老師。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。