RT @ShikaiQiu: µP를 1/폭 독립 가중치 감소와 결합하면 Muon과 Shampoo 모두 일관되게 1.4배와 1.3배의 계산량 절감 효과를 얻을 수 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 9. 오후 9:50
RT @ShikaiQiu: µP를 1/폭 독립 가중치 감소와 결합하면 Muon과 Shampoo 모두 일관되게 1.4배와 1.3배의 계산량 절감 효과를 얻을 수 있습니다.