X (Twitter)

Fiction.LiveBench 終於更新了，這次他們更新了deepseek-v3.2-exp [reasoning: high], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max, qwen3-next-80b-a3b-instruct. 這幾個模型的召回性能結果。比較令我驚訝的是，deepseek-v3.2-exp [reasoning: high] 竟然達到了準一流的水平，32K內至少83%的召回率。這是deepseek 有史以來最好的結果了。不過大於60K應該是出錯了，沒有得到測試結果。另外Qwen3-Next 新架構看起來效果一般，希望新版本能有提升，我目前本地最喜歡的中等大小模型就是Qwen3-Next 和Kimi-linear.

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文