Cerebras は MiniMax-M2 の簡素化されたバージョンをリリースしました。 今回、MiniMax-M2 は 230B から 162B にダウングレード (30% 削減) されましたが、パフォーマンスの低下はわずかにとどまりました。 REAP() プルーニング原理についてもご紹介します。この原理は、ルータによる各エキスパートのアクティベーション頻度と強度(ルーティング閾値)、および各エキスパートの出力への貢献度(エキスパートアクティベーションノルム)を評価します。そして、レイヤ出力への貢献度が最も低いエキスパートを選択してプルーニングします。最後に、微調整を行うことで、より高いパフォーマンスを実現します。 モデルアドレス:
モデルデータ




