X (Twitter)

어제 #NeurIPS2025에서 DeepSeek R1의 "RL" 대 SFT에 대한 (제 개인적인 생각이지만) 잘못된 의견이 너무 많았습니다!🤦♂️ R1이 사용하는 변질된 MDP(Mergent Dependent Protocol)를 통해 모든 중간 토큰+솔루션 토큰에 솔루션에 대한 검증자 보상을 균등하게 분배하는 방식을 고려하면, R1의 RL은 실제로 필터링/반복적인 SFT의 한 형태라고 할 수 있습니다! 일요일에 LAW 및 ForLM 워크숍에서 저희와 이야기를 나눠보세요. 👇

Subbarao Kambhampati (కంభంపాటి సుబ్బారావు)(@rao2z)의 스레드

작성자 정보

스레드 내용