X (Twitter)

StepFun AI, LLM 수준 오디오 편집 모델 Step-Audio-EditX 출시 음성을 "텍스트처럼" 편집할 수 있도록 허용합니다. 30억 개의 매개변수(130B에서 압축) 제로샷 음성 복제 및 다중 라운드 반복 편집을 지원합니다. 지원 언어: 표준 중국어, 영어, 쓰촨어, 광둥어. 자연어 명령을 통해 오디오의 감정, 어조, 스타일, 심지어 준언어적 특징까지 편집할 수 있습니다. Step-Audio-EditX는 여러 측면에서 폐쇄형 소스 상용 모델인 Minimax와 Doubao보다 우수한 성능을 보입니다. 실험 결과는 다음과 같습니다. 자연스러움, 감정 표현, 음색의 일관성은 폐쇄형 소스 상용 시스템과 비슷하거나 더 뛰어납니다. 감정과 스타일을 조절하는 능력은 업계 최고 수준입니다.

StepFun AI는 이 모델이 오디오 편집에 있어 완전히 새로운 패러다임을 나타낸다고 말합니다. 파형 신호에서 오디오를 처리하는 대신, 언어 모델과 유사하게 개별 토큰을 사용하여 음성을 표xiaohu.ai/c/a066c4/stepf…일, 음성 속stepaudiollm.github.io/step-audio-edi… 있습니다. 자세한 내용: https://t.co/0vTbSAZVIq 프로젝트 주소: https://t.co/1Q4sE34jXi GitHub: https://t.co/fyvQjCcKhW 온라인 경험:

StepFun AI는 이 모델이 오디오 편집에 있어 완전히 새로운 패러다임을 나타낸다고 말합니다.

파형 신호에서 오디오를 처리하는 대신, 언어 모델과 유사하게 개별 토큰을 사용하여 음성을 표현합니다. 자연어 명령

小互(@imxiaohu)의 스레드

작성자 정보

스레드 내용