Kimi-K2-Thinking 與 MiniMax M2 在尺寸上相比如何? 2/n 1. MiniMax M2 擁有 100 億個有效參數和 230 億個總參數,並受到充分關注。 2. Kimi K2 有 350 億個活躍參數和 1 兆個總參數。 它們的權重大多是 8 位的。 這意味著 M2 將更容易託管,其 KV 快取也將更加緊湊。 MiniMax M2 使用了完整的注意力機制,看看 Kimi-M2 是否在註意力層做了一些有趣的改動,將會很有意思。 (以下計算假設 Kimi-K2-Thinking 是基於 Kimi-K2-Base 的)
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。