兄弟們,這個牛P Meta 推出“SAM Audio” 讓聲音也能「像影像一樣被輕鬆分割」的AI 模型 「就像Photoshop 能摳圖,SAM Audio 能『摳聲音' 它可以理解並「分割」複雜音訊中的任意聲音元素,例如: 🎸 一鍵提取歌曲中的吉他或人聲🚗 過濾戶外視頻的交通噪音🐶 去除播客錄音裡的狗叫聲 不需要專業混音知識,也不必安裝複雜軟體 它能像影像“摳圖”那樣“摳聲音” 真正讓音訊剪輯“像文字和圖片一樣簡單”
支援三種提示方式(Prompts) 文字提示:直接用自然語言告訴它“提取吉他聲”、“去掉人聲” 就行,非常簡單
視覺提示:點選影片裡的對象 點擊影片中的人物手→ 提取保留她的聲音
時間提示: 選取影片中的時間範圍標記 例如去掉:1:10–1:20 的噪音
這些提示方式可以單獨使用,也可以任意組合 比如: “在0:30–1:00 之間,提取女聲。” 模型是開源的,詳細介紹:xiaohu.ai/c/a066c4/meta-…
