平滑 DiLoCo:httpsarxiv.org/pdf/2512.17131on_defazio 等人) 非分散式替代方案,記憶體開銷更小(僅需一個額外的緩衝區),並且採用連續更新而非傳統 DiLoCo 演算法週期性(且波動較大)的外部更新。 很想看看它如何擴展到分散式領域!
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月23日 上午9:11
平滑 DiLoCo:httpsarxiv.org/pdf/2512.17131on_defazio 等人) 非分散式替代方案,記憶體開銷更小(僅需一個額外的緩衝區),並且採用連續更新而非傳統 DiLoCo 演算法週期性(且波動較大)的外部更新。 很想看看它如何擴展到分散式領域!