Metaは、次世代Segment Anythingモデル「SAM 3」と「SAM 3D」もリリースした。 これは、Segment Anythingシリーズ(SAM 1 → SAM 2 → SAM 3)のさらなるメジャーアップグレードです。SAM 3とSAM 3Dの共通の目標は、AIが「現実の物理世界を理解する」能力にさらに近づき、画像、動画、3Dシーンにおける非常に柔軟なオブジェクトのセグメンテーションと再構築を可能にすることです。簡単に言うと、SAM 3はAIがセグメンテーションしたいものを真に「理解」することを可能にし、SAM 3DはAIが写真をインタラクティブな3D世界に変換することを可能にします。 1. SAM 3: 画像と動画の「任意のセグメンテーション」のための統一モデル(プロンプト可能なユニバーサルセグメンテーション) コアイノベーション: • 複数のプロンプト方法をサポート: SAM 1/2 のポイント、ボックス、マスク プロンプトを継承し、テキスト プロンプト (「赤と白の縞模様の傘」などのオープン ボキャブラリ) と画像例プロンプト (参照画像をアップロードし、モデルに「類似のもの」をセグメント化させる) を追加します。 • 真の「概念レベルのセグメンテーション」を実現: 固定カテゴリ (COCO の 80 カテゴリなど) に限定されず、ユーザーが記述したきめ細かい概念や、複合概念 (「座っているがギフト ボックスを持っていない人」など) をセグメント化できます。 • ビデオ内でのリアルタイムのオブジェクト追跡を可能にし、動的なシーン(一人称視点のグラスビデオなど)をサポートします。 • マルチモーダルな大規模言語モデルの「視覚ツール」として機能し、Llamaなどのモデルが複雑な視覚的推論タスクをより適切に処理できるようになります。 パフォーマンス: • SA-Co ベンチマークでは、Gemini 2.5 Pro、GLEE、OWLv2 などの主要モデルよりも約 2 倍優れたパフォーマンスを発揮します。 1 つの画像 (100 個以上のオブジェクト) の推論には 30 ミリ秒 (H200 GPU) しかかからず、ビデオはほぼリアルタイムです。 • SAM 2 と比較すると、従来のセグメンテーション タスクでは SAM 2 と同等かわずかに優れたパフォーマンスを発揮するほか、新しい概念的な機能も追加されています。 トレーニングとデータ: • 400 万を超える固有の概念のデータセットを使用して、AI + 人間のハイブリッド注釈プロセス (Llama 3.2v 支援検証) を通じてコストを大幅に削減し、効率を向上させます。 • 完全にオープンソース: モデルの重み、評価データセット (野生動物ビデオデータセット SA-FARI を含む)、および微調整コードはすべて公開されています。 実用的なアプリケーション: • Instagram Edits、Meta AI Vibes、Facebook Marketplaceの「View in Room」などの製品と統合されています。 ビデオエフェクト、3D 製品の視覚化、野生生物のモニタリングなどに使用できます。 2. SAM 3D: 単一の自然画像から高品質の 3D 再構築を生成します。 コアポジショニング: • SAM シリーズが 3D に拡張されたのは今回が初めてであり、「日常の写真から現実の物理世界の 3D モデルを再構築する」という目標が掲げられています。 • 2つのサブモデルに分割します。 • SAM 3D オブジェクト: オブジェクトおよびシーンの 3D 形状、テクスチャ、レイアウトの再構築。 SAM 3D ボディ: 3D 人間のポーズと形状の推定に特化しています (遮蔽、異常なポーズ、複数の人物に対応)。 技術的なハイライト: • 1 枚の通常の写真からテクスチャ付きのポーズ付き 3D メッシュを生成します (マルチビュー センサーや深度センサーは不要です)。 • 「モデルインザループ」データエンジンを使用:AIが最初に大まかな3Dを生成し、人間は難しい例のスコアリングと修正のみを担当し、約100万枚の画像(合計314万グリッド)の高品質な注釈付けを実現します。 • 合成データによる事前トレーニングと実際のデータに合わせた多段階トレーニングを組み合わせることで、「シミュレーションと現実」のギャップを埋めることに成功しました。 • 再構築をガイドするインタラクティブなプロンプト(セグメンテーション マスク、2D キー ポイントなど)をサポートします。 パフォーマンス: • 人間の好みのテストでは、勝率は少なくとも 5:1 となり、現在の最高のモデルを上回ります。 • 生成速度が速く(数秒)、解像度が中程度で、遮蔽、小さなオブジェクト、間接的な視点を処理する能力が優れています。 オープンソースのステータス: • 両方のサブモデル、重み、および新しいデータセット (SA-3DAO) のコードはすべてオープンソースです。 ヒューマンパラメトリックモデル MHR は、許容商用ライセンスの下でも利用できます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
