昨日の#NeurIPS2025で、DeepSeek R1の「強化学習」とSFTに関する(私見ですが)間違った意見を聞きすぎました!🤦♂️ R1が用いる退化したMDP(解に対する検証者報酬を中間トークンと解トークンに均等に分配する)により、R1の強化学習はまさにSFTのフィルタリング/反復形式と言えるでしょう!日曜日のLAWとForLMのワークショップでぜひお話を聞かせてください。👇
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
