「現在、モデルに関して非常に混乱していることの一つは、評価で非常にうまくいっているという事実をどう受け入れるかということです。 そして、その評価を見ると、「これはかなり難しい評価だ」と思うのです。 しかし、経済への影響は大幅に減少しているようだ。 (考えられる)説明はあります。人々が事前学習を行っていた頃は、どのデータで学習させるかという問いは既に答えが出ていました。なぜなら、その答えがすべてだったからです。ですから、このデータを使うかあのデータを使うかを考える必要はありません。 人々が RL トレーニングを行うとき、「わかりました。これについてはこの種の RL トレーニングを行い、あれについてはあの種の RL トレーニングを行いたいです」と言います。 「リリース時には、モデルが本当にうまく機能してくれることを期待しています。評価結果も素晴らしいものにしたいです。このタスクに役立つRLトレーニングは何があるでしょうか?」とあなたは言います。 これを、モデルが実際には不十分であるという一般化と組み合わせると、評価パフォーマンスと実際の現実世界でのパフォーマンスの乖離という、私たちが目にしている多くの現象を説明できる可能性があります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。