X (Twitter)

現在都流行大模型月更嗎? MiniMax-M2.1 實測! 申請MiniMax-M2.1 內測通過了, 給大家帶來MiniMax M2.1 的測試結果: 本次測試較MiniMax-M2 從編程, Agent能力, 長上下文召回能力均有不小的提升. 尤其是Agent能力和長上下文召回能力達到了摧枯拉朽的程度, 直接叫MiniMax-M3都不過分. MiniMax M2.1 在24 小時總計300 回合的矽基騎手測試(讓大模型調用tool 送外賣)收益達到了419.77 元, 總計執行了392次tool call, 測試使用了大約56%的上下文空間, 這個範圍內工具調用均表現良好. 作為對比MiniMax M2, 它的收益是285.27元, 不過只使用了32%的上下文空間, 模型就停止使用tool call, 不斷重複上文了. MiniMax-M2.1, 在192K長度上下文上有94%的召回水平, 而MiniMax-M2 只有52%. 可以說是摧枯拉朽的提升. 另外幾個大家熟悉的程式等級測驗上也有不同程度的提升. 這次的新模型特別適合大型Agent任務, 有這方面需求的朋友可以試試看. #MiniMax #MiniMaxM21 #ai寫程式碼 #aiagent #KCORES大模型競技場

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文