Alibaba は、Qwen3-TTS-VD-Flash と Qwen3-TTS-VC-Flash という 2 つの新しい TTS システムをリリースしました。 つまり、これら 2 つのモデルは 3 秒で音声を複製したり、自然言語を使用して新しい音声を作成したりできるため、AI はあらゆる役割、言語、感情で自然に話すことができます。 テキストは堅牢であり、多様で正規化されていないテキストを処理できます。 1. VD-Flash トーン作成モデルは、既存のトーンからしか複製できない、または固定プリセットトーンしか選択できないという問題を解決します。 自然言語を使用してあらゆる音声、年齢、性別、感情、ペルソナを作成でき、複雑なコマンドをサポートします。 InstructTTS-Eval では、総合的なパフォーマンスで GPT-4o-mini-tts や Mimo-audio-7b-instruct を上回り、ロール プレイング テストでは Gemini-2.5-pro-preview-tts を上回りました。 2. VC-Flashトーンクローニングモデル 3sクローン クローン音声に基づいて、中国語、英語、ドイツ語、イタリア語、ポルトガル語、スペイン語、日本語、韓国語、フランス語、ロシア語を含む 10 の言語を生成できます。 MiniMax TTS 多言語テスト セットでは、WER は MiniMax、ElevenLabs、GPT-4o-Audio-Preview よりも優れたパフォーマンスを発揮しました。 #TTS #音声デザイン #音声クローン
VD API:alibabacloud.com/help/en/model-…g VC APalibabacloud.com/help/en/model-…w9i qwen.ai/blog?id=qwen3-…IdAhg