Alibaba a lancé deux nouveaux systèmes TTS : Qwen3-TTS-VD-Flash et Qwen3-TTS-VC-Flash. En résumé, ces deux modèles peuvent cloner une voix en 3 secondes ou créer une nouvelle voix en utilisant le langage naturel, permettant ainsi à l'IA de parler naturellement dans n'importe quel rôle, langue et émotion. Le texte est robuste et peut gérer des textes divers et non normalisés. 1. Le modèle de création de tonalités VD-Flash résout le problème de ne pouvoir cloner que des tonalités existantes ou de ne pouvoir sélectionner que des tonalités prédéfinies fixes. Il peut créer n'importe quelle voix, âge, sexe, émotion et personnalité en utilisant le langage naturel, et prend en charge des commandes complexes. Dans InstructTTS-Eval, il surpasse GPT-4o-mini-tts et Mimo-audio-7b-instruct en termes de performances globales, et surpasse Gemini-2.5-pro-preview-tts dans les tests de jeu de rôle. 2. Modèle de clonage de tonalité VC-Flash 3s clone Il peut générer 10 langues, dont le chinois, l'anglais, l'allemand, l'italien, le portugais, l'espagnol, le japonais, le coréen, le français et le russe, à partir de voix clonées. Sur l'ensemble de tests multilingues MiniMax TTS, WER a surpassé MiniMax, ElevenLabs et GPT-4o-Audio-Preview. #TTS #ConceptionVocale #ClonageVocal
API VD alibabacloud.com/help/en/model-…cg API alibabacloud.com/help/en/model-…IYw9qwen.ai/blog?id=qwen3-…50bjCIdAhg