이 모든 논문의 동기 중 하나는 DeepSeek이 자체적인 방법을 포기하도록 DS 내부 방식을 강력히 비난하는 것이라고 생각합니다. 하지만 Whale은 조용히 매우 자부심을 느낍니다. 어쩌면 지나친 것일지도 모릅니다. 패배를 인정하기보다는 GRPO를 완전히 뒤집어 놓는 게 낫다고 생각합니다. 하지만 모두가 이기는 법이죠.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
