正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月17日 晚上9:26
梯度下降法是最佳化空間的強大工具,它驗證了流形假設,但推理空間是離散的、組合的。 GD 在懸崖狀地形中失效,因為一個離散的變化(一個邏輯步驟)會改變整個結果。 除非...? ? ?