RT @ShikaiQiu: µP と 1/幅の独立した重み減衰を組み合わせると、Muon と Shampoo の両方で一貫して 1.4 倍と 1.3 倍の計算コスト削減が達成されることがわかりました…
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/12/09 21:50
RT @ShikaiQiu: µP と 1/幅の独立した重み減衰を組み合わせると、Muon と Shampoo の両方で一貫して 1.4 倍と 1.3 倍の計算コスト削減が達成されることがわかりました…