Gemini 3 Pro 已經可以在AIStudio 使用了,模型卡也洩漏了,各方面都很強,除了軟體工程基準(SWE Bench)方面略低於Sonnet 4.5 和GPT-5.1 直接轉譯下下面Deepy 的總結: --- 谷歌最新一代AI大模型Gemini 3的性能數據,居然在官方發布前數小時提前洩露!從洩漏的數據來看,這款模型簡直強大到離譜,讓人忍不住想深入挖掘一下,它的發布究竟意味著什麼? 1. 成本不再是障礙:一般人也能用得起的強大AI 谷歌這次從零開始,在自家的TPU晶片上訓練了Gemini 3模型。它採用了專家混合網路(Mixture of Experts,簡稱MoE)架構,可以處理超長輸入(高達100萬token)和輸出(64k token),而MoE設計的精簡之處就在於:即便性能爆炸提升,成本也並不會瘋漲。也就是說,一般用戶未來用這麼強大的AI,花費也不會太高! 2. 電腦操作能力大躍升:真正實現自動化的知識工作 Gemini 3在一項鮮為人知卻非常實用的測試ScreenSpot Pro中表現驚艷。這個測試測試AI理解各種軟體截圖的能力,包括AutoCAD、PhotoShop等專業工具介面。結果Gemini 3以73%的得分一舉超過之前最好的模型足足兩倍,遙遙領先!這意味著Gemini 3真正能夠在複雜的工作場景下,幫助人們有效率地自動化完成專業的知識型工作。 3. 數學能力「一騎絕塵」:其他模型望塵莫及 Gemini 3這次特別經過大量數學定理證明的強化學習,數學能力超凡。在美國數學邀請賽(AIME)中幾乎達到了“完美表現”,而在難度超高的**MathArena**數學基準測試中也達到了驚人的23%(其他主流模型幾乎都只有1%左右)。此外,它在體現真正「通用推理能力」的ARC AGI 2測試中,也創造了30%的領先記錄,這顯示Gemini 3不僅在數學上是頂尖的,通用推理能力也同樣拔群。 4. 程式設計能力驚人,但還有成長空間 Gemini 3在程式測試中展現了驚人的實力,例如在LiveCodeBench的西洋棋等級分(Elo)評分超過了2400,非常優秀。但也有一點小插曲:它在軟體工程基準(SWE Bench)中並未拿下第一,反而輸給了競爭對手。但在「工具呼叫」和「終端使用」等測試上,它依然穩居第一。這說明Gemini 3在互動編程、即時問題解決方面非常強悍,但在複雜、長期的程式碼維護方面,還有進步的空間。 --- 谷歌這次幾乎動用了所有的「壓箱底絕招」:完善的訓練方法、大量私有資料、全新的模型架構,然後在幾乎所有重要的基準測試中都實現了碾壓式領先。這次升級,明確告訴我們:AI領域的發展速度不僅沒有放緩,甚至還在加速前進。 目前來看,Google在大模型領域已經形成了相當明顯的領先優勢。為什麼這麼說? - 成本優勢:Google擁有自家晶片TPU,訓練成本明顯更低; - 數據優勢:Google掌握遠超過其他公司的大量專有數據; - 資金優勢:擁有雄厚財力投入更多訓練與資料資源; - 人才優勢:Google的人才儲備也絲毫不輸其他頂尖公司。 這種全面碾壓的格局,接下來6個月恐怕都很難撼動。谷歌已經用Gemini 3向全世界展示了自己在AI領域的絕對主導地位,而其他公司能否追上,現在還是一個未知數。 無論如何,Gemini 3的發布注定將再次掀起一場AI界的大地震!
Model Card 下載
