StepFun AI (階躍星辰)發布LLM 等級的音訊編輯模型: Step-Audio-EditX 讓語音也可以“像文字一樣被編輯” 30億參數(從130B壓縮而來) 支援零樣本語音克隆與多輪可迭代編輯支援語言:普通話、英語、四川話、粵語它可以透過自然語言指令編輯音訊的情緒、語氣、風格甚至副語言特徵 Step-Audio-EditX 在多項指標上超越了閉源商用模型Minimax 與Doubao 實驗結果顯示: 其在自然度、情感表達、音色一致性方面已接近甚至超越閉源商用系統。 情緒與風格控制能力達到業界領先水準。
StepFun AI 表示,這個模型代表了一種全新的音訊編輯範式: 不再從波形訊號處理音頻,而是像語言模型一樣,用離散token 表示語音,可透過自然語言指令完成情感、風格、語速等多維度的音頻修改。 詳細內容:hxiaohu.ai/c/a066c4/stepf… 專案網址:hstepaudiollm.github.io/step-audio-edi… GitHub:https://t.co/fyvQjCcKhW 線上體驗:
