高效學習的關鍵不在於最終結果的可驗證性,而是每一步都能獲得回饋。例如,開車時,你每時每刻都在觀察預測結果與實際情況之間的差異。但在遊戲、程式設計和數學等領域,你的操作會產生確定性的結果,因此不會發生(或說不需要)這種學習。強化學習(RL)在這些領域已經出現了過擬合現象。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月26日 下午6:50
高效學習的關鍵不在於最終結果的可驗證性,而是每一步都能獲得回饋。例如,開車時,你每時每刻都在觀察預測結果與實際情況之間的差異。但在遊戲、程式設計和數學等領域,你的操作會產生確定性的結果,因此不會發生(或說不需要)這種學習。強化學習(RL)在這些領域已經出現了過擬合現象。