X (Twitter)

CoT RL 역량이 모델의 안전성 튜닝에 미치는 영향에 대한 가장 면밀한 분석은 무엇입니까? 저는 Llama 3.1처럼 안전성과 지시 사항이 잘 조정된 모델을 가져와서 추가적인 안전성 조정을 하지 않고 강화 학습을 수행한 다음, 그 효과에 대해 엄밀한 분석을 하는 연구에 관심이 있습니다. 저는 주로 질적인 측면에 관심이 있습니다. CoT는 어떤 모습인가요? CoT는 회의에서 따라야 할 안전 원칙에 대해 자주 논의하나요? 하지만 벤치마크가 얼마나 감소하는지, 그리고 어떤 벤치마크가 감소하는지와 같은 정량적인 정보도 중요합니다. 혹시 이와 비슷한 연구가 진행된 적이 있는지 아시는 분 계신가요?

William Wale(@snigus)의 스레드

작성자 정보

스레드 내용