阿里新搞了兩個TTS,音色創造Qwen3-TTS-VD-Flash和音色克隆Qwen3-TTS-VC-Flash 這兩個模型一句話總結,3秒克隆音色或用自然語言捏新音色,讓AI用任意角色、任意語言、任意情緒自然說話 文字穩健性強,多樣化非規範化的文字也能處理 1.VD-Flash音色創造模型解決了只能根據已有音色進行複製或只能選擇固定的預設音色 它可以用自然語言就能捏出任意音色、年齡、性別、情緒、人設,支持複雜的指令, InstructTTS-Eval上綜合表現優於GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測驗上超Gemini-2.5-pro-preview-tts 2、VC-Flash音色克隆模型 3s克隆 可以基於克隆的音色生成中文、英文、德語、義大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語10種語言 在MiniMax TTS Multilingual Test Set上,WER優於MiniMax、ElevenLabs、GPT-4o-Audio-Preview #TTS #VoiceDesign #VoiceClone
VD API:alibabacloud.com/help/en/model-… VC APIalibabacloud.com/help/en/model-…i 部落qwen.ai/blog?id=qwen3-…hg