@Clashluke 的 HeavyBall 的 Muon 表現優於 PyTorch 的 Muon。我用不到 150 行程式碼實作了一個數值上與之相符的版本。還有一個 cpp 版本!已發佈在最新的 PufferLib 4 開發分支中。給這個倉庫點個星標,支持一下 PufferLib 吧!
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月18日 晚上9:20
@Clashluke 的 HeavyBall 的 Muon 表現優於 PyTorch 的 Muon。我用不到 150 行程式碼實作了一個數值上與之相符的版本。還有一個 cpp 版本!已發佈在最新的 PufferLib 4 開發分支中。給這個倉庫點個星標,支持一下 PufferLib 吧!