X (Twitter)

Google Gemini 3 千呼萬喚始出來！最強AI 模型，在推理、多模態理解和智能體能力上全面躍升，幾乎全面SOTA，Google CEO 和DeepMind CEO/CTO 聯名發布！ 1. Gemini 3 的定位與整體進步 Google 目前最強大的模型，顯著超越前代Gemini 2.5 Pro，在幾乎所有主流AI 評測中達到SOTA。核心改進包括： · 更強的推理能力：更能理解使用者意圖，提供更簡潔、直接、有洞見的回答。 · 領先的多模態能力：原生支援文字、圖像、視訊、音訊、程式碼的無縫處理。 · 智能體能力大幅提升：模型能自主使用工具、規劃多步驟任務、操作電腦終端，甚至進行長期決策模擬。 · 上下文視窗擴大到1M token，適合處理超長文件或複雜對話。 · 新增「Gemini 3 Deep Think」模式，進一步強化推理，目前優先給安全測試者和Google AI Ultra 訂閱者使用。 2. 關鍵效能數據 Gemini 3 Pro 在大多數專案上排名第一： · LMArena 使用者偏好排行榜：1501 Elo（整體第一） · Humanity's Last Exam（人類頂尖專家級難題）：普通模式37.5%，Deep Think 模式41.0% · GPQA Diamond（博士級科學推理）：普通模式91.9%，Deep Think 模式93.8% · MMMU-Pro（多模態圖文理解）：81% · Video-MMMU（影片理解）：87.6% · SimpleQA Verified（事實準確性）：72.1% · SWE-bench Verified（真實軟體工程任務）：76.2%（大幅領先前代） · WebDev Arena（網頁開發智能體能力）：1487 Elo（第一） · Terminal-Bench 2.0（終端工具使用）：54.2% · ARC-AGI-2（新型抽象推理挑戰）：Deep Think+程式碼執行模式45.1% 3. 實際應用範例· 學習：上傳手寫食譜→ 自動產生精美家庭烹飪書籍；分析學術論文→ 產生互動閃卡或視覺化圖表。 · 創作與建構：以實體公式產生融合反應詩+視覺化動畫；快速建構完整3D遊戲或體素藝術。 · 規劃與代理：讓模型自主管理Gmail 收件匣、模擬販賣機生意多年運作並優化收益。 · 搜尋體驗：在Google Search 的AI Mode 中產生沉浸式視覺介面（如梵谷畫作的雜誌式解讀），並支援互動工具。 4. 可用性與存取方式· 一般使用者：Gemini app（手機/網頁）中已直接升級至Gemini 3，所有人免費可用。 · 進階功能：Google AI Pro/Ultra 訂閱者可在Search 的AI Mode 中使用更強的「Thinking」模式；Deep Think 模式先給Ultra 使用者。 · 開發者/企業：透過Google AI Studio、Vertex AI、Gemini API、Google Antigravity 訪問，支援第三方工具鏈（如Cursor、Replit）。 · 這是Google 首次在模型發布當天就將其整合到Search 中，體現了大規模發行優勢。 5. 安全與責任 Google 強調Gemini 3 是有史以來安全評估最全面的模式： · 採用最新的Frontier Safety Framework。 · 與外部紅隊專家、UK AISI 等機構合作測試。 · 顯著提升對提示注入、網路攻擊誤用等的抵抗力。 · 回應較注重「真實洞見」而非討好使用者。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容