十年前:强化学习(RL)提示工程师[1](第5.3节)。自适应思维链:RL神经网络学习查询其“世界模型”网络以进行抽象推理和决策。超越了1990年的用于毫秒级规划的神经世界模型[2]和1991年的用于分层规划的自适应神经子目标生成器[3,4]。 [1] J. Schmidhuber (JS, 2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models. arXiv 1210.0118 [2] JS (1990). Making the world differentialiable: On using fully recurring self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments. TR FKI-126-90, TUM. (该报告还通过生成对抗网络引入了人工好奇心和内在动机。) [3] JS (1991). 学习生成动作序列的子目标。ICANN'91 会议论文集,第 967-972 页。 [4] JS & R. Wahnsiedler (1992). 使用神经子目标生成器规划简单轨迹。SAB'92 会议论文集,第 196-202 页,麻省理工学院出版社。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
。自适应思维链:RL神经网络学习查询其“世界模型”网络以进行抽象推理和决策。超越了1990年的用于毫秒级规划的神经世界模型[2]和1991年的用于分层规划的自适应神经子目标生成器[3,4](https://pbs.twimg.com/media/G62qakxWcAATu16.png)