X (Twitter)

정말 놀랍네요! Thinking Machine의 접근 방식으로 "엄청난 효율성 향상"을 이뤘습니다! 🚀🚀🚀 "MOPD를 사용한 학습 후: Thinking Machine의 On-Policy-Distillation을 도입하여 여러 RL 모델을 통합했는데, 효율성 향상이 엄청났습니다." 우리는 표준 SFT+RL 파이프라인의 1/50도 안 되는 컴퓨팅 자원을 사용하여 교사 모델의 성능과 동일한 수준을 달성했습니다. 학생이 더욱 훌륭한 교사로 성장하는 선순환 구조가 분명히 존재합니다.

GDP(@bookwormengr)의 스레드

작성자 정보

스레드 내용