X (Twitter)

美团不仅开发了一个新的高难度数学基准测试，而且还输给了它的两个开源竞争对手（DS 和 Qwen；K2 的思维方式应该会巩固 Kimi 在这个数据大师俱乐部中的地位），这非常值得尊敬。顺便说一句，我再说一遍，LongCat 真的是一款很酷的车型。

DeepSeek 在其推理模型的两次重大更新（R1 <<< R1-0528 << V3.1）中，MAF 值都*显著*提升。我猜 V3.2-exp 和 V3.1 是一样的。那些否定它们的人真是太天真了。

来自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文线程