是的,這個Neurips是強化學習和世界模型領域的Neurips。圍繞著這些主題舉辦了許多研討會和工作坊,這是理所當然的。 Rich Sutton 也提醒我們,我們為 LLM 進行 RL 的方式(RLVR/GROO)並不是苦口婆心的教訓,它只能更可靠地激發現有的技能,僅此而已… 話雖如此,強化學習領域仍有許多唾手可得的成果。昨天我見到了ToolRL和DAPO的作者。確實還有很多唾手可得的成果…
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月4日 中午12:13
是的,這個Neurips是強化學習和世界模型領域的Neurips。圍繞著這些主題舉辦了許多研討會和工作坊,這是理所當然的。 Rich Sutton 也提醒我們,我們為 LLM 進行 RL 的方式(RLVR/GROO)並不是苦口婆心的教訓,它只能更可靠地激發現有的技能,僅此而已… 話雖如此,強化學習領域仍有許多唾手可得的成果。昨天我見到了ToolRL和DAPO的作者。確實還有很多唾手可得的成果…