在等待用户实际反馈期间,Frontier 版本发布最有趣的部分之一就是检查哪些评估结果还没有失效。加油 FrontierMath!对于 Putnam 来说有点遗憾,但 DeepSeek-Prover-2 > Seed-Prover 序列仍将是 LLM 数学史不可或缺的一部分。