어제 #NeurIPS2025에서 DeepSeek R1의 "RL" 대 SFT에 대한 (제 개인적인 생각이지만) 잘못된 의견이 너무 많았습니다!🤦♂️ R1이 사용하는 변질된 MDP(Mergent Dependent Protocol)를 통해 모든 중간 토큰+솔루션 토큰에 솔루션에 대한 검증자 보상을 균등하게 분배하는 방식을 고려하면, R1의 RL은 실제로 필터링/반복적인 SFT의 한 형태라고 할 수 있습니다! 일요일에 LAW 및 ForLM 워크숍에서 저희와 이야기를 나눠보세요. 👇
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
