X (Twitter)

StepFun AI （階躍星辰）發布LLM 等級的音訊編輯模型： Step-Audio-EditX 讓語音也可以“像文字一樣被編輯” 30億參數（從130B壓縮而來）支援零樣本語音克隆與多輪可迭代編輯支援語言：普通話、英語、四川話、粵語它可以透過自然語言指令編輯音訊的情緒、語氣、風格甚至副語言特徵 Step-Audio-EditX 在多項指標上超越了閉源商用模型Minimax 與Doubao 實驗結果顯示：其在自然度、情感表達、音色一致性方面已接近甚至超越閉源商用系統。情緒與風格控制能力達到業界領先水準。

StepFun AI 表示，這個模型代表了一種全新的音訊編輯範式：不再從波形訊號處理音頻，而是像語言模型一樣，用離散token 表示語音，可透過自然語言指令完成情感、風格、語速等多維度的音頻修改。詳細內容：hxiaohu.ai/c/a066c4/stepf… 專案網址：hstepaudiollm.github.io/step-audio-edi… GitHub：https://t.co/fyvQjCcKhW 線上體驗：

StepFun AI 表示，這個模型代表了一種全新的音訊編輯範式：

不再從波形訊號處理音頻，而是像語言模型一樣，用離散token 表示語音，可透過自然語言指令完成情感、風格、語速等多維度的音頻修改。

詳細內容：https://t.co/

來自小互（@imxiaohu）的推文串

作者資訊

推文串內容