William Wale (@snigus): What's the most careful analysis of the impacts of capabilities CoT R…

機能 CoT RL がモデルの安全性チューニングに与える影響についての最も慎重な分析は何ですか? 私は、ラマ 3.1 のような、安全性と指示が適切に調整されたモデルを採用し、それ以上の安全性の調整を行わずに強化学習し、その効果について厳密な分析を行う研究に興味があります。私が最も興味を持っているのは、質的な側面です。CoTはどのように見えるでしょうか？CoTは、従うべき安全原則について、コット内で頻繁に話しているでしょうか？しかし、ベンチマークがどの程度減少するか、またどのベンチマークが減少するかといった定量的な事柄もあります。このような研究が行われたことがあるか知っている人はいますか?

William Wale（@snigus）のスレッド

作者情報

スレッド内容