Meta는 비디오처럼 오디오를 분할하는 것을 목표로 하는 새로운 통합 오디오 분할 모델인 SAM Audio를 오픈 소스로 공개했습니다. 텍스트, 시각 및 시간적 단서를 사용하여 오디오 믹스에서 특정 사운드를 분리할 수 있으며, Segment Anything의 통합된 단서 기반 분할 철학을 계승합니다. 예를 들어 텍스트 프롬프트의 경우 "개 짖는 소리"를 입력하면 한 번의 클릭으로 음성을 추출할 수 있으며, 시각적 프롬프트의 경우 비디오 프레임의 캐릭터를 클릭하면 해당 캐릭터의 음성을 추출할 수 있습니다. 이 장비의 혁신적인 기능 중 하나는 시간 범위 단서 기능으로, 지정된 구간 내의 특정 소리만 처리할 수 있다는 점입니다. 이 세 가지 안내는 개별적으로 또는 조합하여 사용할 수 있습니다. SAM Audio는 깨끗한 사운드나 별도의 오디오 트랙이 필요한 모든 작업에 유용한 강력한 오디오 편집 도구입니다. 짧은 비디오/팟캐스트, 음악 제작, 영화 및 TV 후반 작업, 야생 동물 모니터링 등 다양한 분야에서 활용할 수 있습니다. #AI 오디오 분할 #SAMAudio
블로그about.fb.com/news/2025/12/o…fo 깃허브:github.com/facebookresear…t