X (Twitter)

RL이 왜 그렇게 중요할까요? Agent RFT 등등... 아래 스토리는 모델이 RL 포스트 트레이닝 동안 프로덕션에서 사용할 도구를 알아야 한다는 것을 보여주는 매우 중요한 증거입니다. 클로드 코드가 탑재된 Opus 4.5는 CORE-Bench를 압도하지만, 다른 장비를 사용한 성능은 주목할 만한 수준이 아닙니다. 유일한 차이점은 하네스(및 도구)의 변경입니다. 커서 팀도 Compose 학습에 대해 이야기하면서 같은 점을 지적했습니다. 이 모델은 도구, 특히 임베딩 검색을 사용하는 데 더 능숙해졌습니다. RL은 주류의 포스트 트레이닝 기술이 될 것입니다. @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai .

GDP at NeurIPS 2025(@bookwormengr)의 스레드

작성자 정보

스레드 내용