Fiction.LiveBenchがついにアップデートされました!今回は、deepseek-v3.2-exp [推論:高]、deepseek-v3.2-exp、nemotron-nano-9b-v2:free、qwen-max、qwen3-next-80b-a3b-instructの再現性能テスト結果が更新されました。 驚いたのは、deepseek-v3.2-exp [理由:高] が32K以内で83%以上の再現率を達成し、トップクラスに近いパフォーマンスを達成したことです。これはdeepseekがこれまで達成した最高の結果です。ただし、60Kを超える値についてはテスト結果が得られなかったため、おそらく不合格だったと思われます。 さらに、Qwen3-Nextの新しいアーキテクチャは、パフォーマンスがあまり良くないようです。新バージョンで改善されることを期待しています。現在、私が地元で気に入っている中型モデルは、Qwen3-NextとKimi-linearです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![Fiction.LiveBenchがついにアップデートされました!今回は、deepseek-v3.2-exp [推論:高]、deepseek-v3.2-exp、nemotron-nano-9b-v2:free、qwen-max、qwen3-](https://pbs.twimg.com/media/G7LrhcRaMAA43KO.jpg)
![Fiction.LiveBenchがついにアップデートされました!今回は、deepseek-v3.2-exp [推論:高]、deepseek-v3.2-exp、nemotron-nano-9b-v2:free、qwen-max、qwen3-](https://pbs.twimg.com/media/G7LrhcPawAAfqtH.jpg)