X (Twitter)

私は依然として、反射的学習こそが学習アルゴリズムの未来であると主張しています。これは、機能する値関数の作成について考えることと関連していますが、それよりもかなり内容が充実しています。

従来の教師あり学習と強化学習の問題は、システムが設計していない実験から、キュレートしていない勾配更新の影響を受けてしまうことです。私たちが「思考時間のスケーリング」に注力しているのであれば、エージェントは学習方法についてもっと真剣に考える必要があるのではないでしょうか。

Omar Khattab（@lateinteraction）のスレッド