美团不仅开发了一个新的高难度数学基准测试,而且还输给了它的两个开源竞争对手(DS 和 Qwen;K2 的思维方式应该会巩固 Kimi 在这个数据大师俱乐部中的地位),这非常值得尊敬。 顺便说一句,我再说一遍,LongCat 真的是一款很酷的车型。
DeepSeek 在其推理模型的两次重大更新(R1 <<< R1-0528 << V3.1)中,MAF 值都*显著*提升。我猜 V3.2-exp 和 V3.1 是一样的。那些否定它们的人真是太天真了。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年10月31日 05:14
美团不仅开发了一个新的高难度数学基准测试,而且还输给了它的两个开源竞争对手(DS 和 Qwen;K2 的思维方式应该会巩固 Kimi 在这个数据大师俱乐部中的地位),这非常值得尊敬。 顺便说一句,我再说一遍,LongCat 真的是一款很酷的车型。
DeepSeek 在其推理模型的两次重大更新(R1 <<< R1-0528 << V3.1)中,MAF 值都*显著*提升。我猜 V3.2-exp 和 V3.1 是一样的。那些否定它们的人真是太天真了。