X (Twitter)

네, 이 Neurips는 RL과 세계 모델의 Neurips입니다. 이 주제에 대한 세션과 워크숍이 정말 많았고, 그럴 만한 이유가 있었죠. 리치 서튼도 LLM(RLVR/GROO)을 위한 RL을 하는 방식이 쓴 교훈을 섞어서 하는 것이 아니며, 기존 기술을 더 확실하게 이끌어낼 수 있을 뿐 그 이상은 아니라는 점을 상기시켜 주었습니다. 그렇긴 하지만, RL에는 아직 쉽게 얻을 수 있는 목표가 많습니다. 어제 ToolRL과 DAPO의 저자들을 만났습니다. 아직 쉽게 얻을 수 있는 목표가 많습니다…

GDP at NeurIPS 2025(@bookwormengr)의 스레드

작성자 정보

스레드 내용