X (Twitter)

剛看了SWE-Benchverified最新測試結果，MiniMax-M2 成為了得分最高的開放權重大模型！ Minimax M2目前是開源模型裡的王者，agent能力很強，但官方說測試耗費了很多token,不過它的長任務處理能力真的很棒，200+步都能穩住。 Deepseek v3.2 reasoning版緊追在後，價格便宜到感人，但速度慢了點。如果不急著用，這個性價比確實無敵。 100步左右就能達到很好的效果了。 GLM 4.6這次表現很均衡，速度快價格低，性能也不錯，算是性價比之王了。跟qwen3 coder 480b a35b水準差不多，但反應快很多。整體來說現在開源模型進步挺快的，雖然跟Gemini 3 pro、Claude 4.5 Opus這些閉源模型還有差距，但在不斷追趕頭部商業大模型。 #SWEBench #AI評測 #大模型 #Minimax #DeepSeek #GLM #開源模型 #AI效能 #程式碼生成

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文