评估方法有点不完善,与 Terminus 不兼容,尽管超过 20% 的测试用例结果超出上下文,但它们仍然推断出“真实”的搜索代理得分,这是因为它仍然过度思考…… 但从方向上看,是的,它靠近SoTA。
“DeepSeek-V3.2-Speciale 在 2025 年 ICPC 世界锦标赛中排名第二,在 2025 年 IOI 中排名第十”。在 IMO 上获得 35/42 分(即除了该死的 P6 之外的所有分数),在 CMO 上获得 102/126 分。它融合了 Math-V2 的强大功能。 无需工具,最多生成 128K 个代币。与 Gemini 相比,代币效率较低。


