简直太棒了——Thinking Machine 的方法带来了“巨大的效率提升”🚀🚀🚀 “使用 MOPD 进行训练后:我们采用了 Thinking Machine 的 On-Policy-Distillation 来合并多个 RL 模型,效率提升非常显著。 我们仅用不到标准 SFT+RL 流水线 1/50 的计算量就达到了教师模型的性能。 这里存在一个清晰的自我强化循环路径,学生会在这个循环中成长为更优秀的老师。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。