X (Twitter)

如何最仔细地分析能力 CoT RL 对模型安全性调优的影响？我感兴趣的是这样的研究：他们采用一个经过良好安全+指导调整的模型（例如 llama 3.1），然后对其进行强化学习，而不进行进一步的安全调整，然后对效果进行严格的分析。我主要感兴趣的是定性方面：CoT（儿童治疗小组）的运作情况如何？CoT是否经常在自己的病床上讨论它应该遵循的安全原则？但还有一些量化数据，比如基准指标下降了多少，以及哪些指标下降了。有人知道是否有人做过类似的研究吗？

来自 William Wale（@snigus）的推文线程

作者信息

线程正文