X (Twitter)

Google Gemini 3が、ついに待望の登場です！最強のAIモデルであるGemini 3は、推論能力、マルチモーダル理解、エージェント機能において飛躍的な進歩を誇り、ほぼ普遍的な最先端のパフォーマンスを実現しています。Google CEOとDeepMind CEO/CTOが共同で発表しました。 1. ジェミニ3号の位置づけと全体的な改善 Google のこれまでで最も強力なモデルは、前モデルの Gemini 2.5 Pro を大幅に上回り、ほぼすべての主流 AI ベンチマークで最先端のパフォーマンスを実現しています。主な改善点は次のとおりです。 • 強化された推論能力: ユーザーの意図をより深く理解し、より簡潔で直接的かつ洞察に富んだ回答を提供します。最先端のマルチモーダル機能: テキスト、画像、ビデオ、オーディオ、コードのシームレスな処理をネイティブにサポートします。 • インテリジェントエージェントの機能が大幅に強化され、モデルは自律的にツールを使用し、複数ステップのタスクを計画し、コンピュータ端末を操作し、長期的な意思決定シミュレーションを実行することさえできるようになりました。 • コンテキストウィンドウは 100 万トークンまで拡張できるため、非常に長いドキュメントや複雑な会話の処理に適しています。 • 推論機能をさらに強化するため、新たに「Gemini 3 Deep Think」モードが追加されました。現在、セキュリティテスターとGoogle AI Ultraサブスクリプションメンバーがご利用いただけます。 2. 主要業績データ Gemini 3 Pro は、ほとんどのカテゴリーで 1 位を獲得しました。 • LMArena ユーザー選好度ランキング: 1501 Elo (総合1位) 人類最後の試験（トップレベルのエキスパートレベルパズル）：通常モード 37.5%、ディープシンクモード 41.0% • GPQA ダイヤモンド（博士レベルの科学的推論）：通常モードで91.9%、ディープシンクモードで93.8% • MMMU-Pro（マルチモーダルグラフィカル理解）：81% • ビデオMMMU（ビデオ理解相互能力テスト）：87.6% • SimpleQA Verified（事実の正確性）: 72.1% • SWE-bench Verified（実際のソフトウェアエンジニアリングタスク）: 76.2%（前世代より大幅に向上） • WebDev Arena（Web開発エージェント能力）：1487 Elo（初）ターミナルベンチ2.0（ターミナルツールの使用率）: 54.2% • ARC-AGI-2（新規抽象推論チャレンジ）：ディープシンク＋コード実行モード 45.1% 3. 実用的なアプリケーションの例と学習: 手書きのレシピをアップロード → 美しくデザインされた家庭料理本を自動的に生成します。学術論文を分析 → インタラクティブなフラッシュカードまたはビジュアルチャートを生成します。 • 作成と構築: 物理法則を使用して核融合反応の詩や視覚アニメーションを生成し、完全な 3D ゲームやボクセルアートを素早く構築します。 • 計画と代理店: モデルが Gmail の受信トレイを自律的に管理し、自動販売機のビジネス運営を長年にわたりシミュレートして収益を最適化できるようにします。 • 検索エクスペリエンス: Google 検索の AI モードで没入型のビジュアルインターフェース（ゴッホの絵画の雑誌スタイルの解釈など）を生成し、インタラクティブツールをサポートします。 4. 利用可能状況とアクセス方法 • 通常ユーザー: Gemini アプリ (モバイル/Web) は Gemini 3 に直接アップグレードされており、誰でも無料でご利用いただけます。 • 高度な機能: Google AI Pro/Ultra 加入者は、AI 検索モードでより強力な「思考」モードを使用できます。ディープシンクモードは、Ultra ユーザー向けに最初に提供されます。 • 開発者/企業: Google AI Studio、Vertex AI、Gemini API、Google Antigravity 経由でアクセス可能。サードパーティツールチェーン (Cursor や Replit など) もサポートされています。これは、Google がモデルをリリース当日に検索に統合した初めてのケースであり、大規模配信の利点を実証しています。 5. 安全と責任 Google は、Gemini 3 がこれまでで最も包括的なセキュリティ評価モデルであることを強調しています。 • 最新のFrontier Safety Frameworkを採用しています。 • テストのために、外部のレッドチームの専門家や UK AISI などの組織と協力します。 • インジェクション脆弱性、サイバー攻撃における悪用、その他の脅威に対する耐性が大幅に強化されます。 • 回答は、ユーザーへの迎合ではなく、「実際の洞察」に重点を置いています。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容