10年前:強化学習(RL)プロンプトエンジニア[1](5.3節)。適応的思考連鎖:RLニューラルネットは、抽象的な推論と意思決定のために「世界モデル」ネットに問い合わせることを学習する。ミリ秒単位の計画のための1990年のニューラル世界モデル[2]と、階層的計画のための1991年の適応型ニューラルサブゴールジェネレータ[3,4]を超える。 [1] J. Schmidhuber (JS, 2015). 「考えることを学ぶことについて:RLコントローラとリカレントニューラル世界モデルの新しい組み合わせのためのアルゴリズム情報理論」ArXiv 1210.0118 [2] JS (1990). 「世界を差別化可能にする:非定常環境における動的強化学習と計画のための完全再帰型自己教師付きニューラルネットワークの活用について」TR FKI-126-90, TUM. (この報告書では、生成的敵対ネットワークを通じた人工的な好奇心と内発的動機づけについても紹介されている。) [3] JS (1991). 行動シーケンスのサブゴール生成の学習. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). ニューラルサブゴールジェネレータを用いた単純な軌道の計画. Proc. SAB'92, p 196-202, MIT Press.
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
。適応的思考連鎖:RLニューラルネットは、抽象的な推論と意思決定のために「世界モデル」ネットに問い合わせることを学習する。ミリ秒単位の計画のための1990年のニューラル世界モデ](https://pbs.twimg.com/media/G62qakxWcAATu16.png)