X (Twitter)

如何最仔細分析能力 CoT RL 對模型安全性調優的影響？我感興趣的是這樣的研究：他們採用一個經過良好安全+指導調整的模型（例如 llama 3.1），然後對其進行強化學習，而不進行進一步的安全調整，然後對效果進行嚴格的分析。我主要感興趣的是定性方面：CoT（兒童治療小組）的運作情況如何？ CoT是否經常在自己的病床上討論它應該遵循的安全原則？但還有一些量化數據，像是基準指標下降了多少，以及哪些指標下降了。有人知道是否有人做過類似的研究嗎？

來自 William Wale（@snigus）的推文串

作者資訊

推文串內容