由于我真的不热衷于基准测试,所以我一直低估了评估结果,但是:我们在所有非代码领域(*包括*数学)都处于最先进水平。即使缺席,Monad 也达到了 SOTA 的水平。现在我真的很想做一个小型数学证明器:信不信由你,但现有的流程还有很大的改进空间。