現実世界の困難なタスクでパフォーマンスを大幅に向上させる背後にある考え方は、価値関数をトレーニングし、価値関数から計算された利点に基づいてモデルを調整し、モデルが独自のデータから学習する反復的な改善ループを実行することです。