是的,这个Neurips是强化学习和世界模型领域的Neurips。围绕这些主题举办了许多研讨会和工作坊,这是理所应当的。 Rich Sutton 也提醒我们,我们为 LLM 进行 RL 的方式(RLVR/GROO)并不是苦口婆心的教训,它只能更可靠地激发现有的技能,仅此而已…… 话虽如此,强化学习领域仍然有很多唾手可得的成果。昨天我见到了ToolRL和DAPO的作者。确实还有很多唾手可得的成果……
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月4日 12:13
是的,这个Neurips是强化学习和世界模型领域的Neurips。围绕这些主题举办了许多研讨会和工作坊,这是理所应当的。 Rich Sutton 也提醒我们,我们为 LLM 进行 RL 的方式(RLVR/GROO)并不是苦口婆心的教训,它只能更可靠地激发现有的技能,仅此而已…… 话虽如此,强化学习领域仍然有很多唾手可得的成果。昨天我见到了ToolRL和DAPO的作者。确实还有很多唾手可得的成果……