所以 对质量一般的数据进行 SFT,然后只对关心的指标进行 RL,与一开始就对高质量数据进行 SFT 相比,哪个更糟糕? 思考这样一种情况:你想训练任务的结构,但又不想产生高质量的“实质内容”。
我怀疑,你为了纠正错误数据的影响而进行的强化学习(RL)力度不够,不足以真正抵消其影响。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月23日 20:14
所以 对质量一般的数据进行 SFT,然后只对关心的指标进行 RL,与一开始就对高质量数据进行 SFT 相比,哪个更糟糕? 思考这样一种情况:你想训练任务的结构,但又不想产生高质量的“实质内容”。
我怀疑,你为了纠正错误数据的影响而进行的强化学习(RL)力度不够,不足以真正抵消其影响。