X (Twitter)

StepFun AIがLLMレベルのオーディオ編集モデル「Step-Audio-EditX」をリリース音声を「テキストのように」編集できるようにします。 30億のパラメータ（1300億から圧縮）ゼロショット音声クローニングと複数ラウンドの反復編集をサポートします。対応言語：北京語、英語、四川語、広東語。自然言語コマンドを使用して、音声の感情、トーン、スタイル、さらにはパラ言語的特徴を編集できます。 Step-Audio-EditX は、複数の指標においてクローズドソースの商用モデル Minimax および Doubao よりも優れています。実験結果は次のことを示しています。その自然さ、感情表現、音色の一貫性は、クローズドソースの商用システムに匹敵するか、あるいはそれを上回っています。彼らの感情とスタイルをコントロールする能力は業界でもトップクラスです。

StepFun AI は、このモデルがオーディオ編集のまったく新しいパラダイムを表していると述べています。波形信号から音声を処理するのではなく、言語モデルに似た離散トークンを用いて音声を表現します。自然言語コマンxiaohu.ai/c/a066c4/stepf…の次元で音声をstepaudiollm.github.io/step-audio-edi…co/0vTbSAZVIq プロジェクトアドレス: https://t.co/1Q4sE34jXi GitHub: https://t.co/fyvQjCcKhW オンライン体験:

StepFun AI は、このモデルがオーディオ編集のまったく新しいパラダイムを表していると述べています。

波形信号から音声を処理するのではなく、言語モデルに似た離散トークンを用いて音声を表現します。自然言語コマンドを通じて、感情、スタイ

小互（@imxiaohu）のスレッド

作者情報

スレッド内容