X (Twitter)

Gemini 3 Pro 已經可以在AIStudio 使用了，模型卡也洩漏了，各方面都很強，除了軟體工程基準（SWE Bench）方面略低於Sonnet 4.5 和GPT-5.1 直接轉譯下下面Deepy 的總結： --- 谷歌最新一代AI大模型Gemini 3的性能數據，居然在官方發布前數小時提前洩露！從洩漏的數據來看，這款模型簡直強大到離譜，讓人忍不住想深入挖掘一下，它的發布究竟意味著什麼？ 1. 成本不再是障礙：一般人也能用得起的強大AI 谷歌這次從零開始，在自家的TPU晶片上訓練了Gemini 3模型。它採用了專家混合網路（Mixture of Experts，簡稱MoE）架構，可以處理超長輸入（高達100萬token）和輸出（64k token），而MoE設計的精簡之處就在於：即便性能爆炸提升，成本也並不會瘋漲。也就是說，一般用戶未來用這麼強大的AI，花費也不會太高！ 2. 電腦操作能力大躍升：真正實現自動化的知識工作 Gemini 3在一項鮮為人知卻非常實用的測試ScreenSpot Pro中表現驚艷。這個測試測試AI理解各種軟體截圖的能力，包括AutoCAD、PhotoShop等專業工具介面。結果Gemini 3以73%的得分一舉超過之前最好的模型足足兩倍，遙遙領先！這意味著Gemini 3真正能夠在複雜的工作場景下，幫助人們有效率地自動化完成專業的知識型工作。 3. 數學能力「一騎絕塵」：其他模型望塵莫及 Gemini 3這次特別經過大量數學定理證明的強化學習，數學能力超凡。在美國數學邀請賽（AIME）中幾乎達到了“完美表現”，而在難度超高的**MathArena**數學基準測試中也達到了驚人的23%（其他主流模型幾乎都只有1%左右）。此外，它在體現真正「通用推理能力」的ARC AGI 2測試中，也創造了30%的領先記錄，這顯示Gemini 3不僅在數學上是頂尖的，通用推理能力也同樣拔群。 4. 程式設計能力驚人，但還有成長空間 Gemini 3在程式測試中展現了驚人的實力，例如在LiveCodeBench的西洋棋等級分（Elo）評分超過了2400，非常優秀。但也有一點小插曲：它在軟體工程基準（SWE Bench）中並未拿下第一，反而輸給了競爭對手。但在「工具呼叫」和「終端使用」等測試上，它依然穩居第一。這說明Gemini 3在互動編程、即時問題解決方面非常強悍，但在複雜、長期的程式碼維護方面，還有進步的空間。 --- 谷歌這次幾乎動用了所有的「壓箱底絕招」：完善的訓練方法、大量私有資料、全新的模型架構，然後在幾乎所有重要的基準測試中都實現了碾壓式領先。這次升級，明確告訴我們：AI領域的發展速度不僅沒有放緩，甚至還在加速前進。目前來看，Google在大模型領域已經形成了相當明顯的領先優勢。為什麼這麼說？ - 成本優勢：Google擁有自家晶片TPU，訓練成本明顯更低； - 數據優勢：Google掌握遠超過其他公司的大量專有數據； - 資金優勢：擁有雄厚財力投入更多訓練與資料資源； - 人才優勢：Google的人才儲備也絲毫不輸其他頂尖公司。這種全面碾壓的格局，接下來6個月恐怕都很難撼動。谷歌已經用Gemini 3向全世界展示了自己在AI領域的絕對主導地位，而其他公司能否追上，現在還是一個未知數。無論如何，Gemini 3的發布注定將再次掀起一場AI界的大地震！

Model Card 下載

來自宝玉（@dotey）的推文串

作者資訊

推文串內容