cerebras 又放了MiniMax-M2 剪枝版本! 這次是把MiniMax-M2 從230B 剪到了162B (30%剪枝), 並且性能僅有一丟丟下降. 另外給大家介紹下REAP () 剪枝原理: 它會路評估由器激活每個專家的頻率和強度(路由門值), 以及每個專家輸出貢獻的幅度(專家激活範數). 然後選擇剪掉那些對層輸出貢獻最小的專家. 最後再來一波微調, 從而達到了較高的性能. 模型位址:
模型數據
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月16日 清晨7:22
cerebras 又放了MiniMax-M2 剪枝版本! 這次是把MiniMax-M2 從230B 剪到了162B (30%剪枝), 並且性能僅有一丟丟下降. 另外給大家介紹下REAP () 剪枝原理: 它會路評估由器激活每個專家的頻率和強度(路由門值), 以及每個專家輸出貢獻的幅度(專家激活範數). 然後選擇剪掉那些對層輸出貢獻最小的專家. 最後再來一波微調, 從而達到了較高的性能. 模型位址:
模型數據