가장 중요한 걸 깜빡했네요. DS-Math 이전에는 Frontier만 RL을 할 수 있었는데, PPO는 너무 골치 아프고 DPO는 성능이 부족했거든요. 아이러니하게도 GRPO는 그들에게 가장 평범하면서도 가장 영향력 있는 선물이었습니다. 또한: R1 이전에는 프론티어만이 좋은 결과 기반 RL을 수행했습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 29. 오전 3:17
가장 중요한 걸 깜빡했네요. DS-Math 이전에는 Frontier만 RL을 할 수 있었는데, PPO는 너무 골치 아프고 DPO는 성능이 부족했거든요. 아이러니하게도 GRPO는 그들에게 가장 평범하면서도 가장 영향력 있는 선물이었습니다. 또한: R1 이전에는 프론티어만이 좋은 결과 기반 RL을 수행했습니다.