Fiction.LiveBench 終於更新了,這次他們更新了deepseek-v3.2-exp [reasoning: high], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max, qwen3-next-80b-a3b-instruct. 這幾個模型的召回性能結果。 比較令我驚訝的是,deepseek-v3.2-exp [reasoning: high] 竟然達到了準一流的水平,32K內至少83%的召回率。這是deepseek 有史以來最好的結果了。不過大於60K應該是出錯了,沒有得到測試結果。 另外Qwen3-Next 新架構看起來效果一般,希望新版本能有提升,我目前本地最喜歡的中等大小模型就是Qwen3-Next 和Kimi-linear.
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
![Fiction.LiveBench 終於更新了,這次他們更新了deepseek-v3.2-exp [reasoning: high], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-ma](https://pbs.twimg.com/media/G7LrhcRaMAA43KO.jpg)
![Fiction.LiveBench 終於更新了,這次他們更新了deepseek-v3.2-exp [reasoning: high], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-ma](https://pbs.twimg.com/media/G7LrhcPawAAfqtH.jpg)