如何最仔細分析能力 CoT RL 對模型安全性調優的影響? 我感興趣的是這樣的研究:他們採用一個經過良好安全+指導調整的模型(例如 llama 3.1),然後對其進行強化學習,而不進行進一步的安全調整,然後對效果進行嚴格的分析。 我主要感興趣的是定性方面:CoT(兒童治療小組)的運作情況如何? CoT是否經常在自己的病床上討論它應該遵循的安全原則? 但還有一些量化數據,像是基準指標下降了多少,以及哪些指標下降了。 有人知道是否有人做過類似的研究嗎?
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。