由於我真的不熱衷於基準測試,所以我一直低估了評估結果,但是:我們在所有非程式碼領域(*包括*數學)都處於最先進水平。即使缺席,Monad 也達到了 SOTA 的水平。現在我真的很想做一個小型數學證明器:信不信由你,但現有的流程還有很大的進步空間。