剛看了SWE-Benchverified最新測試結果,MiniMax-M2 成為了得分最高的開放權重大模型! Minimax M2目前是開源模型裡的王者,agent能力很強,但官方說測試耗費了很多token,不過它的長任務處理能力真的很棒,200+步都能穩住。 Deepseek v3.2 reasoning版緊追在後,價格便宜到感人,但速度慢了點。如果不急著用,這個性價比確實無敵。 100步左右就能達到很好的效果了。 GLM 4.6這次表現很均衡,速度快價格低,性能也不錯,算是性價比之王了。跟qwen3 coder 480b a35b水準差不多,但反應快很多。 整體來說現在開源模型進步挺快的,雖然跟Gemini 3 pro、Claude 4.5 Opus這些閉源模型還有差距,但在不斷追趕頭部商業大模型。 #SWEBench #AI評測#大模型#Minimax #DeepSeek #GLM #開源模型#AI效能#程式碼生成
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
