最新の SWE-Benchverified テスト結果を確認したところ、MiniMax-M2 がオープンウェイト モデルで最高得点を獲得しました。 Minimax M2は現在、強力なエージェント機能を備えたオープンソースモデルの王者です。しかし、公式ドキュメントによると、テストには多くのトークンが消費されたとのことです。とはいえ、長時間タスクの処理能力は実に優れており、200ステップ以上でも安定性を維持しています。 Deepseek v3.2 推論バージョンは、価格が驚くほど安く、僅差で2位につけていますが、動作は少し遅いです。急いでいなければ、価格性能比は抜群です。約100ステップで優れた結果が得られます。 GLM 4.6は今回非常に優れたパフォーマンスを発揮し、高速、低価格、そして優れたパフォーマンスを実現しているため、コストパフォーマンスの点でもトップクラスです。QWEN3 Coder 480b A35bとほぼ同等ですが、応答時間ははるかに高速です。 全体的に見て、オープンソースモデルは非常に急速に進歩しています。Gemini 3 ProやClaude 4.5 Opusなどのクローズドソースモデルにはまだ遅れをとっていますが、主要な商用モデルには着実に追いついています。 #SWEBench #AIEvaluation #LargeModel #Minimax #DeepSeek #GLM #OpenSourceModel #AIPerformance #コード生成
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
