ある賢い人が素晴らしい例え話をしてくれたので、それを盗もうと思ったので、ここに引用します。モデルを強化学習で特定の(ベンチマーク可能な)タスクに実行させることは、特定の薬効を持つ化合物を見つけるようなものです。他の、あるいは隣接していないタスクにも効果があるかどうかはわかりません。他にどんな効果があるのか(あるいは副作用があるのか)は、実際に実験してみることでしかわかりません。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。