흥미로운 점은 방향이 갈라졌다는 것입니다. 2022년에는 폐쇄형 연구실에서 PPO를 진행했고, 개방형 모델은 존재하지 않았습니다. 2023년에는 주로 SFT(LoRA 포함)를 진행했고, 그 후 DPO 종인 코피움(Copium)을 얻었습니다. 2024년의 GRPO는… 예상치 못한 일이었습니다. 그리고 우리는 폐쇄형 연구소들이 지금 무엇을 사용하는지 알지 못합니다.
덧붙여 말하자면, 그들은 GRPO의 성과에 대해서도 놀랐습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 12. 23. 오전 7:15
흥미로운 점은 방향이 갈라졌다는 것입니다. 2022년에는 폐쇄형 연구실에서 PPO를 진행했고, 개방형 모델은 존재하지 않았습니다. 2023년에는 주로 SFT(LoRA 포함)를 진행했고, 그 후 DPO 종인 코피움(Copium)을 얻었습니다. 2024년의 GRPO는… 예상치 못한 일이었습니다. 그리고 우리는 폐쇄형 연구소들이 지금 무엇을 사용하는지 알지 못합니다.
덧붙여 말하자면, 그들은 GRPO의 성과에 대해서도 놀랐습니다.