少し前にまさにこれについて書きました。私の意見では、これはもう随分前から明らかだったと思います https://t.co/SIe1Fewlx6
ある賢い人が素晴らしい例え話をしてくれたので、それを盗もうと思ったので、ここに引用します。モデルを強化学習で特定の(ベンチマーク可能な)タスクに実行させることは、特定の薬効を持つ化合物を見つけるようなものです。他の、あるいは隣接していないタスクにも効果があるかどうかはわかりません。他にどんな効果があるのか(あるいは副作用があるのか)は、実際に実験してみることでしかわかりません。