十年前:強化學習(RL)提示工程師[1](第5.3節)。自適應思考鏈:RL神經網路學習查詢其「世界模型」網路以進行抽象推理和決策。超越了1990年的毫秒規劃的神經世界模型[2]和1991年的用於分層規劃的自適應神經子目標產生器[3,4]。 [1] J. Schmidhuber (JS, 2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models. arXiv 1210.0118 [2] JS (1990). Making the world differentialiable: On using fully recurring self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments. TR FKI-126-90, TUM. (on-stationary environments. TR FKI-126-90, TUM。 [3] JS (1991). 學習產生動作序列的子目標。 ICANN'91 會議論文集,第 967-972 頁。 [4] JS & R. Wahnsiedler (1992). 使用神經子目標產生器規劃簡單軌跡。 SAB'92 會議論文集,第 196-202 頁,麻省理工學院出版社。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
。自適應思考鏈:RL神經網路學習查詢其「世界模型」網路以進行抽象推理和決策。超越了1990年的毫秒規劃的神經世界模型[2]和1991年的用於分層規劃的自適應神經子目標產生器[3,4]。](https://pbs.twimg.com/media/G62qakxWcAATu16.png)