効率的な学習の鍵は、最終結果の検証可能性ではなく、あらゆる段階でフィードバックを得ることです。例えば、車を運転しているとき、あなたは常に自分の予測と実際に起こったことの違いを観察しています。一方、ゲーム、コーディング、数学といった分野では、あなたの行動は決定論的な結果をもたらすため、そのような学習は行われません(あるいは必要ありません)。強化学習はこれらの分野に過剰適合します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。