이 블로그 게시물에서는 SFT와 RL에서 보상 해킹의 한계에 대해 논의합니다. 세 가지 훈련 방법 비교: SFT(지도 미세 조정) 샘플링: ❌ 거리두기 전략(교사의 궤적) 보상: ✅ Dense (토큰당) 질문: 학생 모드에서의 복합 오류 RL(강화 학습) 샘플링: ✅ 전략(학생들의 아웃테이크) 보상: ❌ Sparse (최종 결과만) 문제점: 에피소드당 신호가 하나뿐이어서 효율성이 낮습니다. 정책 증류에 사용하면 샘플링이 더 잘 해결됩니다. ✅ 정책(학생 궤적) 보상: ✅ Dense (선생님은 각 토큰에 점수를 매깁니다) 이 문제를 더 깊이 이해하려면 Bojie의 이 기사를 추천합니다. https://t.co/r9r14GGZ3u
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.