Cerebras가 MiniMax-M2의 축소된 버전을 출시했습니다! 이번에는 MiniMax-M2가 230B에서 162B로 다운그레이드(30% 감소)되었고, 성능은 약간만 감소했습니다. REAP() 가지치기 원리도 소개합니다. 이 원리는 라우터에서 각 전문가의 활성화 빈도와 강도(라우팅 임계값)를 평가하고, 각 전문가의 출력 기여도(전문가 활성화 기준)를 측정합니다. 그런 다음 계층 출력에 가장 적게 기여하는 전문가를 선택하고 가지치기합니다. 마지막으로 미세 조정을 수행하여 더 높은 성능을 달성합니다. 모델 주소:
모델 데이터




