中盃比大杯還多? Google 你確定? Google 剛剛發布了Gemini-3.0-Flash 版本, 即Gemini-3 系列模型的中盃版本, 結果他們自己的測試數據, Flash 有的分數比Pro 還高? 而且不只一個, MMMU-Pro (測模型推理的), SWE-Bench-Verified (測模型寫代碼的), Toolathlon (測工具使用的), MMMLU (比分持平, 測多語言能力的) 都比Pro 要高. 我這真不信了, 稍等我一會, 馬上為大家帶來Flash 版本寫程式碼能力評測.
官方數據/1
官方數據/2








