X (Twitter)

彼らはモデルを擬人化してはいけないと言い続けていますが、優れた技術はすべて、これまでずっと人間、行動、学習について研究されてきたことの類推であるように思われます。「RLは、タスクが能力の限界にあるときに最も効果を発揮します」

これは興味深い論文なので、一読することをお勧めします。ただし、ここに記載されている情報のほとんどは、実務経験を積んだ人なら経験から知っている内容です。しかし、とても良く書かれていて楽しく読むことができました。

tokenbender（@tokenbender）のスレッド