솔직히 말해서, 그들이 GRPO에 그렇게 충성하는 이유는 패치 적용과 이해에 많은 투자를 했기 때문이라고 생각합니다. 새로운 데이터에 대한 더 짧은 반복 작업에서 길이 편향(예를 들어, 길이 편향)으로 인한 비용을 기꺼이 감수할 의향이 있는 거죠. DeepSeek을 사용하지 않는다면 GRPO를 뛰어넘을 수 있을지도 모릅니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.