ええ、このニューリップスはRLと世界モデルのニューリップスです。このテーマに関するセッションやワークショップは数多く開催されていますが、それも当然のことです。 Rich Sutton はまた、LLM 向けの RL のやり方 (RLVR/GROO) は苦い教訓を積み重ねるものではなく、既存のスキルをより確実に引き出すことはできるが、それ以上にはならないことを思い出させてくれました...。 とはいえ、RLにはまだ簡単に達成できる目標がたくさんあります。昨日はToolRLの作者であるDAPOに会いました。まだ達成しやすい目標はたくさんあります…。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。