機能 CoT RL がモデルの安全性チューニングに与える影響についての最も慎重な分析は何ですか? 私は、ラマ 3.1 のような、安全性と指示が適切に調整されたモデルを採用し、それ以上の安全性の調整を行わずに強化学習し、その効果について厳密な分析を行う研究に興味があります。 私が最も興味を持っているのは、質的な側面です。CoTはどのように見えるでしょうか?CoTは、従うべき安全原則について、コット内で頻繁に話しているでしょうか? しかし、ベンチマークがどの程度減少するか、またどのベンチマークが減少するかといった定量的な事柄もあります。 このような研究が行われたことがあるか知っている人はいますか?
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。