Gemini 3 的正式發佈公告來了 LMArena 直接幹到了1501 分,霸榜第一。發布即上線,今天起全家桶(搜尋、App、API)直接能用。 甚至還推出了類似o1 的Deep Think 深度思考模式,和全新的Agent 開發平台。 總結這次更新的核心亮點👇 推理能力史詩級加強 Gemini 3 Pro 現在是全球最強的多模態模型。 LMArena 1501 分登頂。在Humanity's Last Exam 這種變態難的測驗裡拿到37.5%,數學能力在MathArena 上也是刷新紀錄。不管是看複雜的圖表還是解高難度的數學題,它現在的理解深度和細膩程度都上了一個階梯。 Deep Think 深度思考模式這次Google也跟進了類似o1 的慢思考模式。 Gemini 3 Deep Think 會花更多時間去推理,專門解決那種需要剝絲、抽繭的複雜問題。測試資料比Pro 版本還要高一截,不過目前是先給安全測試人員用,Ultra 用戶還得再等幾週。 Agent 開發的新紀元:Antigravity 對開發者來說,最重磅的可能是新的Google Antigravity 平台。 Gemini 3 在程式碼產生和長程規劃上進步巨大,SWE-bench 達到了76.2%。 Antigravity 把AI 變成了真正的合作夥伴,它能自己規劃、自己寫程式碼、還能擁有編輯器和終端權限,控制瀏覽器去驗證程式碼跑得對不對,完全是端到端的體驗。 記憶與多模態的融合 Gemini 3 現在的上下文視窗依然是100 萬token,但處理資訊的維度更廣了。例如你可以把家裡的手寫老食譜拍給它,它能整理成電子版;或者把匹克球比賽視頻丟給它,它能分析你的動作並製定訓練計劃。它不再只是讀文字,而是真的在"讀懂現場"。
這次Gemini 3 的發布節奏明顯感覺到Google急了,但也真的認真了。 首先是落地速度。以前都是發Paper 吹牛,現在是發布即上線,搜尋、App、AI Studio、Vertex AI 全產品線鋪開,這個執行力才是谷歌該有的樣子。 其次是Antigravity。這個名字起得很有趣——"反重力",感覺是想擺脫傳統開發的束縛。 Agent 不再是簡單的對話框,而是擁有了編輯器和終端權限的獨立實體,這才是AI 程式設計的未來形態。 最後,大模型戰役進入了"拼刺刀"階段。模型能力差距在縮小,現在拼的誰能更快把能力塞進產品裡,讓一般人使用。谷歌這波"搜尋+App+雲"的組合拳,壓力給到了OpenAI 這邊。
