네, 이 Neurips는 RL과 세계 모델의 Neurips입니다. 이 주제에 대한 세션과 워크숍이 정말 많았고, 그럴 만한 이유가 있었죠. 리치 서튼도 LLM(RLVR/GROO)을 위한 RL을 하는 방식이 쓴 교훈을 섞어서 하는 것이 아니며, 기존 기술을 더 확실하게 이끌어낼 수 있을 뿐 그 이상은 아니라는 점을 상기시켜 주었습니다. 그렇긴 하지만, RL에는 아직 쉽게 얻을 수 있는 목표가 많습니다. 어제 ToolRL과 DAPO의 저자들을 만났습니다. 아직 쉽게 얻을 수 있는 목표가 많습니다…
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.