正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月6日 凌晨12:20
強化學習只有在預訓練模型已經能夠解決問題的情況下才有效(否則就沒有獎勵訊號)。因此,強化學習無法解決任何難題,即使它看起來可以,實際上也只是偽裝得很好的蠻力演算法。