그런데, 저는 DeepSeek의 "Self-Principled Critique Tuning(SPCT)으로 강화된 생성적 보상 모델(GRM)" 체크포인트가 어느 시점에 출시되었다는 것을 지금에야 알게 되었습니다. 이 기능은 Gemmas와 V2-lite + V2.5를 교사로 사용했습니다. V3.2 기반 GRM이 얼마나 좋을지 상상해 보세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

