すっごく あまり質の良くないデータで SFT を実行してから、重要なメトリクスを強化するのと、最初から質の良いデータで SFT を実行するのとでは、どれくらい悪いのでしょうか。 タスクの構造を訓練したいが、いわゆる高品質の「肉」を生成したくない状況について考える
私の疑念は、不良データの影響を修正するために行う強化学習は、それを実際に打ち消すほど広範ではないということだ。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
2 件のツイート · 2025/11/23 20:14
すっごく あまり質の良くないデータで SFT を実行してから、重要なメトリクスを強化するのと、最初から質の良いデータで SFT を実行するのとでは、どれくらい悪いのでしょうか。 タスクの構造を訓練したいが、いわゆる高品質の「肉」を生成したくない状況について考える
私の疑念は、不良データの影響を修正するために行う強化学習は、それを実際に打ち消すほど広範ではないということだ。