RT @ShikaiQiu:结合 µP 和 1/宽度无关的权重衰减,我们发现 Muon 和 Shampoo 都能稳定地节省 1.4 倍和 1.3 倍的计算资源……
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月9日 21:50
RT @ShikaiQiu:结合 µP 和 1/宽度无关的权重衰减,我们发现 Muon 和 Shampoo 都能稳定地节省 1.4 倍和 1.3 倍的计算资源……