RT @ShikaiQiu:結合 µP 和 1/寬度無關的權重衰減,我們發現 Muon 和 Shampoo 都能穩定地節省 1.4 倍和 1.3 倍的計算資源…
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月9日 晚上9:50
RT @ShikaiQiu:結合 µP 和 1/寬度無關的權重衰減,我們發現 Muon 和 Shampoo 都能穩定地節省 1.4 倍和 1.3 倍的計算資源…