「検証可能なら強化学習で最適化できる」というのは、強化学習が最適化のための弱い普遍的な方法であるという事実の帰結に過ぎない。 *現実世界と一緒(ただし死ぬ可能性あり) *シミュレータ付き(ただし誰かがシミュレータを作成する必要があります) *検証ツール付き(シミュレータよりも書きやすいかもしれない)
より大きな(苦い?)教訓は、LLM/LRMは人間の宣言的知識(事実に基づく知識)と手続き的知識(検証者という形で)を活用することに長けているということかもしれない。どちらの知識も活用されていない状況では、事態は不透明になる。

