私は依然として、反射的学習こそが学習アルゴリズムの未来であると主張しています。 これは、機能する値関数の作成について考えることと関連していますが、それよりもかなり内容が充実しています。
従来の教師あり学習と強化学習の問題は、システムが設計していない実験から、キュレートしていない勾配更新の影響を受けてしまうことです。 私たちが「思考時間のスケーリング」に注力しているのであれば、エージェントは学習方法についてもっと真剣に考える必要があるのではないでしょうか。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
2 件のツイート · 2025/11/26 2:55
私は依然として、反射的学習こそが学習アルゴリズムの未来であると主張しています。 これは、機能する値関数の作成について考えることと関連していますが、それよりもかなり内容が充実しています。
従来の教師あり学習と強化学習の問題は、システムが設計していない実験から、キュレートしていない勾配更新の影響を受けてしまうことです。 私たちが「思考時間のスケーリング」に注力しているのであれば、エージェントは学習方法についてもっと真剣に考える必要があるのではないでしょうか。