X (Twitter)

스레드를 불러오는 중

깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.

보통 몇 초면 완료되니 잠시만 기다려 주세요.

Yangyi (@Yangyixxxx): 这个博客写的奖励黑客问题是SFT与RL的局限性所在 三种训练方法的对比: SFT(监督微调) 采样:❌ 离策略(教师的轨迹) 奖励:✅ 稠… | Thread Easy