RL이 왜 그렇게 중요할까요? Agent RFT 등등... 아래 스토리는 모델이 RL 포스트 트레이닝 동안 프로덕션에서 사용할 도구를 알아야 한다는 것을 보여주는 매우 중요한 증거입니다. 클로드 코드가 탑재된 Opus 4.5는 CORE-Bench를 압도하지만, 다른 장비를 사용한 성능은 주목할 만한 수준이 아닙니다. 유일한 차이점은 하네스(및 도구)의 변경입니다. 커서 팀도 Compose 학습에 대해 이야기하면서 같은 점을 지적했습니다. 이 모델은 도구, 특히 임베딩 검색을 사용하는 데 더 능숙해졌습니다. RL은 주류의 포스트 트레이닝 기술이 될 것입니다. @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai .
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.