X (Twitter)

Fiction.LiveBenchがついにアップデートされました！今回は、deepseek-v3.2-exp [推論：高]、deepseek-v3.2-exp、nemotron-nano-9b-v2:free、qwen-max、qwen3-next-80b-a3b-instructの再現性能テスト結果が更新されました。驚いたのは、deepseek-v3.2-exp [理由：高] が32K以内で83%以上の再現率を達成し、トップクラスに近いパフォーマンスを達成したことです。これはdeepseekがこれまで達成した最高の結果です。ただし、60Kを超える値についてはテスト結果が得られなかったため、おそらく不合格だったと思われます。さらに、Qwen3-Nextの新しいアーキテクチャは、パフォーマンスがあまり良くないようです。新バージョンで改善されることを期待しています。現在、私が地元で気に入っている中型モデルは、Qwen3-NextとKimi-linearです。

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容