帶給大家Meta 的SAM 3 大模型實測! 這個大模型有4個功能, 分別是影片內容辨識, 圖片內容辨識, 圖片產生3D模型, 圖片產生3D人物姿勢模型. 首先來看第一個測試, 影片內容識別 讓我們從簡單的場景開始, 這是一個機器人工作的場景, 左側搜索欄自動給出了視頻中物體的名稱, 我們選擇robot, 然後進行標記. 結果效果一般, 可以看到只有後面一段成功標記了機器人, 但是視頻前面沒有標記, 這意味著模型可能遷移性較差. 真的是這樣嗎? 我們再來複雜一些的視頻, 高速運動的自行車比賽視頻, 左側並沒有識別到運動員, 但神奇的是識別到了襪子哈哈哈, 別擔心, 我們看下這個自行車標記的效果怎樣, 很不錯, 那麼我們手動增加標記試一下, 牛皮, 這次毫無問題了. 那麼最大可以標記多少? 來看第三個測試, 點擊標記people 後, 自動標記了10個人. 當我們手動標記第11個時, 就會失敗, 所以視頻內容識別最大標記量為10個目標. 再來看圖片內容識別 我們上來就來個猛的, 讓他標記圖片中所有的泡泡, 可以看到絕大部分的泡泡都成功標記了, 不過有些重疊的還是漏掉了. 當然這個效果已經很牛了, 跟專門訓練的yolo 有一拼. 那麼再增加一些, 還能辨識嗎? 來看這個辨識水滴, 完蛋啦! 這個無法正確標記, 主要還是目標天多了, 不過手動標記單一目標還是沒問題的. 動物能標記嗎? 沒問題, 看這個綿羊標記, 很成功. 另外, 如果是訓練的少的內容, 泛化效果也不好, 比如終極難題電路板, 雖然識別出來有電容電阻, 但是點擊後還是會把各種原件混淆到一起. 然後是3D場景建模 首先是Mamiya相機, 我們讓它建模, 可以看到圖片中展示的面還可以, 但是其它面就出現幻覺了, 這個時目前3D建模模型的通病. 畢竟沒看過的東西大模型也腦補不出來. 另外還內置了一些有趣的特效, 對於社交媒體的場景很有創意. 然後複雜一點, 我們來一個蒸汽機車, 可以看到這次則是建模精度有些問題, 火車的機械細節還原度不夠. 我們來測試多物體建模, 這個表現很好, 可以看到樂高小人建模的效果很不錯. 那麼場景建模怎樣呢? 我們來個樓梯, 完蛋, 這個幻覺太嚴重了, 把樓梯建模成了平台. 最後是圖片生成3D人物姿勢 我們先上傳一個單人場景, 效果非常不錯, 可以看到人物姿勢非常還原 複雜一些, 我們增加一下人數, 畫面中也增加一些遮擋. 完美, 可以看到人物姿勢還原還是沒問題, 甚至畫面中第三個人都是別到了. 當然有些瑕疵, 比如這個人物的腹部由於裙子遮擋, 建模出現了一些問題. 再複雜一些, 打籃球場景, 這個建模也很精準. 被遮擋的人物建模也很還原. 再複雜一些, 一個超級多人場景, 仍然成功建模了, 不過這個也出現了一些問題, 所有人其實都是在憑證地地面的, 但是模型把透視理解錯了, 變成了所有人都站在一個斜面上, 高低不同. 總結 目前來看四種模式中, 最好用的是圖片生成3D人物姿勢, 其次是圖片內容識別, 然後是視頻內容識別, 最差的是圖片生成3D模型. 不過即使是這樣, 這個模型也是業界相當大的進步了. #sam3 #meta
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。