cerebras 又放了MiniMax-M2 剪枝版本! 這次是把MiniMax-M2 從230B 剪到了162B (30%剪枝), 並且性能僅有一丟丟下降. 另外給大家介紹下REAP () 剪枝原理: 它會路評估由器激活每個專家的頻率和強度(路由門值), 以及每個專家輸出貢獻的幅度(專家激活範數). 然後選擇剪掉那些對層輸出貢獻最小的專家. 最後再來一波微調, 從而達到了較高的性能. 模型位址:
模型數據
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月16日 07:22
cerebras 又放了MiniMax-M2 剪枝版本! 這次是把MiniMax-M2 從230B 剪到了162B (30%剪枝), 並且性能僅有一丟丟下降. 另外給大家介紹下REAP () 剪枝原理: 它會路評估由器激活每個專家的頻率和強度(路由門值), 以及每個專家輸出貢獻的幅度(專家激活範數). 然後選擇剪掉那些對層輸出貢獻最小的專家. 最後再來一波微調, 從而達到了較高的性能. 模型位址:
模型數據