このブログ投稿では、SFT と RL における報酬ハッキングの限界について説明します。 3つのトレーニング方法の比較: SFT(教師あり微調整) サンプリング:❌ 距離戦略(教師の軌跡) 報酬: ✅ 密度 (トークンあたり) 質問: 学生モードでの複合エラー RL(強化学習) サンプリング: ✅ 戦略(学生のアウトテイク) 報酬: ❌ スパース(最終結果のみ) 問題: エピソードごとに 1 つの信号があり、効率が低い。 政策蒸留に使用すると、サンプリングがより適切に解決されます: ✅ 政策(学生の軌跡) 報酬: ✅ 密度が高い (教師は各トークンに点数をつけます) この問題をより深く理解するには、Bojie によるこの記事をお勧めします。 https://t.co/r9r14GGZ3u
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。