Rich Sutton 正準備闡述他「不帶苦澀的超級智慧願景」(他顯然只是指尊重他自己慘痛的教訓——而不是給我們所有人帶來的任何附帶痛苦😋)#NeurIPS2025
關於「選項」—它們是 STRIPS 巨集算子的 MDP 推廣。這些選項的挑戰不在於如何創造它們(數量太多了),而是如何只保留好的選項,捨棄無用的選項——這就是所謂的「效用問題」。
我對這種「讓智能體發現自身抽象概念」的做法的一個擔憂是,它們的抽象概念可能與我們開發的抽象概念不符——從而加劇了對齊問題。
呼!我很高興Rich認可了規劃!說真的,我同意「規劃」是將智能體已有的轉換模型轉化為策略;但通常很難將規劃和學習完全分離…參見https://t.co/72HjXOJ1G6 #NeurIPS2025
輕鬆一點來說,我很好奇在場的聽眾有多少人意識到“過渡模型”只是“世界模型”這個更常用於法學碩士領域的術語的正式名稱……#NeurIPS2025 [另外,我很喜歡Rich對“對死亡的恐懼是否是道德行為的必要條件”這個問題的回答:“不需要……而且這跟我演講的主題也無關……”]
簡而言之;Rich 在 #NeurIPS2025 上的演講敦促那些認為「法學碩士就足夠了」的人更加關注從實際經驗中學習的挑戰……但恕我直言,他低估了在遵守現有人類知識的前提下做到這一點的難度。 https://t.co/85IfNVLC3j
人們低估了讓完全依靠自身經驗學習的智能體與我們的價值觀一致的困難。儘管LLM(學習型智能體)的價值觀調整已經發展成一個小型產業,但與此相比,簡直是小兒科! #NeurIPS2025




