@Clashluke 的 HeavyBall 的 Muon 性能优于 PyTorch 的 Muon。我用不到 150 行代码实现了一个数值上与之匹配的版本。还有一个 cpp 版本!已发布在最新的 PufferLib 4 开发分支中。给这个仓库点个星标,支持一下 PufferLib 吧!
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月18日 21:20
@Clashluke 的 HeavyBall 的 Muon 性能优于 PyTorch 的 Muon。我用不到 150 行代码实现了一个数值上与之匹配的版本。还有一个 cpp 版本!已发布在最新的 PufferLib 4 开发分支中。给这个仓库点个星标,支持一下 PufferLib 吧!