X (Twitter)

正在載入線程內容

正在從 X 取得原始推文,整理成清爽的閱讀畫面。

通常只需幾秒鐘,請稍候。

Yangyi (@Yangyixxxx): 这个博客写的奖励黑客问题是SFT与RL的局限性所在 三种训练方法的对比: SFT(监督微调) 采样:❌ 离策略(教师的轨迹) 奖励:✅ 稠… | Thread Easy