¡Cerebras ha lanzado una versión recortada del MiniMax-M2! En esta ocasión, el MiniMax-M2 se redujo de 230B a 162B (poda del 30%), y el rendimiento solo disminuyó ligeramente. Permítanme presentarles también el principio de poda REAP(): evalúa la frecuencia e intensidad de activación del enrutador para cada experto (umbral de enrutamiento), así como la magnitud de la contribución de cada experto a la salida (norma de activación del experto). A continuación, selecciona y poda a los expertos que menos contribuyen a la salida de la capa. Finalmente, realiza un ajuste fino, logrando así un mayor rendimiento. Dirección del modelo:
Datos del modelo




