정말 놀랍네요! Thinking Machine의 접근 방식으로 "엄청난 효율성 향상"을 이뤘습니다! 🚀🚀🚀 "MOPD를 사용한 학습 후: Thinking Machine의 On-Policy-Distillation을 도입하여 여러 RL 모델을 통합했는데, 효율성 향상이 엄청났습니다." 우리는 표준 SFT+RL 파이프라인의 1/50도 안 되는 컴퓨팅 자원을 사용하여 교사 모델의 성능과 동일한 수준을 달성했습니다. 학생이 더욱 훌륭한 교사로 성장하는 선순환 구조가 분명히 존재합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.