Alguien debería comprobar si se trata de una carcasa V3.1. Si finalmente han logrado entrenar MoE a escala V3 en Ascends, esto es muy importante. La hipótesis mecanicista anterior era que ciertas microoptimizaciones de CANN perjudicaban la precisión de los operadores, afectando el enrutamiento de MoE.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
