正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月24日 晚上8:14
用一句話概括強化學習:將每個獎勵傳遞給導致該獎勵的每一個動作,並在每一步進行折扣。