RT @ShikaiQiu: Combinando µP con la descomposición del peso independiente del ancho de 1, encontramos que tanto Muon como Shampoo logran un ahorro computacional consistente de 1,4x y 1,3x…
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.