美團不僅開發了一個新的高難度數學基準測試,而且還輸給了它的兩個開源競爭對手(DS 和 Qwen;K2 的思維方式應該會鞏固 Kimi 在這個數據大師俱樂部中的地位),這非常值得尊敬。 順便說一句,我再說一遍,LongCat 真的是一款很酷的車型。
DeepSeek 在其推理模型的兩次重大更新(R1 <<< R1-0528 << V3.1)中,MAF 值都*顯著*提升。我猜 V3.2-exp 和 V3.1 是一樣的。那些否定它們的人真是太天真了。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年10月31日 清晨5:14
美團不僅開發了一個新的高難度數學基準測試,而且還輸給了它的兩個開源競爭對手(DS 和 Qwen;K2 的思維方式應該會鞏固 Kimi 在這個數據大師俱樂部中的地位),這非常值得尊敬。 順便說一句,我再說一遍,LongCat 真的是一款很酷的車型。
DeepSeek 在其推理模型的兩次重大更新(R1 <<< R1-0528 << V3.1)中,MAF 值都*顯著*提升。我猜 V3.2-exp 和 V3.1 是一樣的。那些否定它們的人真是太天真了。