A Cerebras lançou uma versão simplificada do MiniMax-M2! Desta vez, o MiniMax-M2 foi rebaixado de 230B para 162B (redução de 30%), e o desempenho diminuiu apenas ligeiramente. Permita-me também apresentar o princípio de poda do REAP(): ele avalia a frequência e a intensidade da ativação de cada especialista pelo roteador (limiar de roteamento), bem como a magnitude da contribuição de cada especialista para a saída (norma de ativação do especialista). Em seguida, seleciona e poda os especialistas que menos contribuem para a saída da camada. Finalmente, realiza um ajuste fino, alcançando assim um desempenho superior. Endereço do modelo:
Dados do modelo




