Rich Sutton 正准备阐述他“不带苦涩的超级智能愿景”(他显然只是指尊重他自己惨痛的教训——而不是给我们所有人带来的任何附带痛苦😋)#NeurIPS2025
关于“选项”——它们是 STRIPS 宏算子的 MDP 推广。这些选项的挑战不在于如何创建它们(数量太多了),而在于如何只保留好的选项,舍弃无用的选项——这就是所谓的“效用问题”。
我对这种“让智能体发现自身抽象概念”的做法的一个担忧是,它们的抽象概念可能与我们开发的抽象概念不符——从而加剧了对齐问题。
呼!我很高兴Rich认可了规划!说真的,我同意“规划”是将智能体已有的转换模型转化为策略;但通常很难将规划和学习完全分离……参见https://t.co/72HjXOJ1G6 #NeurIPS2025
轻松一点来说,我很好奇在场的听众有多少人意识到“过渡模型”只是“世界模型”这个更常用于法学硕士领域的术语的正式名称……#NeurIPS2025 [另外,我很喜欢Rich对“对死亡的恐惧是否是道德行为的必要条件”这个问题的回答:“不需要……而且这跟我演讲的主题也无关……”]
简而言之;Rich 在 #NeurIPS2025 上的演讲敦促那些认为“法学硕士就足够了”的人更加关注从实际经验中学习的挑战……但恕我直言,他低估了在遵守现有人类知识的前提下做到这一点的难度。 https://t.co/85IfNVLC3j
人们低估了让完全依靠自身经验学习的智能体与我们的价值观保持一致的难度。尽管LLM(学习型智能体)的价值观调整已经发展成一个小型产业,但与此相比,简直是小儿科!#NeurIPS2025




