Meta 同時發表Segment Anything 新一代模型「SAM 3」與「SAM 3D」 Segment Anything 系列(從SAM 1 → SAM 2 → SAM 3)的另一個重大升級。 SAM 3 和SAM 3D 的共同目標是讓AI 更接近「理解真實物理世界」的能力,在影像、視訊、3D 場景中實現高度靈活的物件分割與重建。簡單來說:SAM 3 讓AI 真正「懂」你想分割什麼,SAM 3D 讓AI 能把照片變成可互動的3D 世界。 1. SAM 3:統一的影像與視訊「任意分割」模型(Promptable Universal Segmentation) 核心創新點: · 支援多種提示方式:繼承了SAM 1/2 的點、框、遮罩提示,也新增文字提示(開放詞彙,如「紅白條紋雨傘」)和圖像範例提示(上傳參考圖,讓模型分割「類似的東西」)。 · 真正實現「概念級分割」:不再局限於固定類別(如COCO 的80 類),而是可以分割任意用戶描述的細粒度概念,甚至是複合概念(如「坐著但沒拿禮盒的人」)。 · 在視訊中實現即時物件跟踪,支援動態場景(如第一人稱眼鏡視訊)。 · 可作為多模態大語言模型的“視覺工具”,讓Llama 等模型更好地處理複雜視覺推理任務。 性能表現: · 在SA-Co 基準上,比Gemini 2.5 Pro、GLEE、OWLv2 等領先機型提升約2 倍。 · 單張圖片(100+ 物件)推理只需30ms(H200 GPU),影片近實時。 · 與SAM 2 相比,在傳統分割任務上持平或略勝,同時新增概念能力。 訓練與資料: · 使用超過400 萬個獨特概念的資料集,透過「AI + 人類」混合標註流程(Llama 3.2v 輔助驗證)大幅降低成本並提升效率。 · 完全開源:模型權重、評估資料集(包括野生動物視訊資料集SA-FARI)、微調程式碼全部公開。 實際應用: · Instagram Edits、Meta AI Vibes、Facebook Marketplace 的「View in Room」等產品已整合。 · 可用於視訊特效、商品3D 視覺化、野生動物監測等。 2. SAM 3D:從單張自然影像產生高品質3D 重建 核心定位: · 首次將SAM 系列能力擴展到3D,目標是「從日常照片中重建真實物理世界的3D 模型」。 · 分兩個子模型: · SAM 3D Objects:針對物件與場景的3D 形狀、紋理、佈局重建。 · SAM 3D Body:專精於人體3D 姿勢、形狀估計(支持遮蔽、奇異姿勢、多人)。 技術亮點: · 只需一張普通照片(無需多視角、深度感應器),即可產生帶有紋理、可擺姿勢的3D 網格。 · 使用「model-in-the-loop」 資料引擎:AI 先生成粗糙3D,人類只負責評分/修正難例,實現近百萬張影像的高品質標註(總計314 萬個網格)。 · 結合合成資料預訓練+ 真實資料對齊的多階段訓練,成功跨越「模擬到現實」的鴻溝。 · 支援互動式提示(分割遮罩、2D 關鍵點等)來引導重建。 性能表現: · 在人類偏好測試中,勝率至少5:1 超過現有最佳模型。 · 生成速度快(幾秒鐘),解析度適中,處理遮蔽、小物體、間接視角能力強。 開源情況: · 兩個子模型程式碼、權重、新資料集(SA-3DAO)全部開源。 · 人體參數化模型MHR 也以寬鬆商業許可開放。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
