如何最仔细地分析能力 CoT RL 对模型安全性调优的影响? 我感兴趣的是这样的研究:他们采用一个经过良好安全+指导调整的模型(例如 llama 3.1),然后对其进行强化学习,而不进行进一步的安全调整,然后对效果进行严格的分析。 我主要感兴趣的是定性方面:CoT(儿童治疗小组)的运作情况如何?CoT是否经常在自己的病床上讨论它应该遵循的安全原则? 但还有一些量化数据,比如基准指标下降了多少,以及哪些指标下降了。 有人知道是否有人做过类似的研究吗?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。