X (Twitter)

A Alibaba lançou dois novos sistemas TTS: Qwen3-TTS-VD-Flash e Qwen3-TTS-VC-Flash. Resumindo, esses dois modelos conseguem clonar uma voz em 3 segundos ou criar uma nova voz usando linguagem natural, permitindo que a IA fale naturalmente em qualquer função, idioma e emoção. O texto é robusto e consegue lidar com textos diversos e não normalizados. 1. O modelo de criação de timbres VD-Flash resolve o problema de só poder clonar timbres existentes ou selecionar apenas timbres predefinidos fixos. Ele consegue criar qualquer voz, idade, gênero, emoção e personalidade usando linguagem natural e suporta comandos complexos. No InstructTTS-Eval, ele supera o GPT-4o-mini-tts e o Mimo-audio-7b-instruct em desempenho geral e supera o Gemini-2.5-pro-preview-tts em testes de dramatização. 2. Modelo de clonagem de tom VC-Flash clone do 3s Ele pode gerar 10 idiomas, incluindo chinês, inglês, alemão, italiano, português, espanhol, japonês, coreano, francês e russo, com base em vozes clonadas. No conjunto de testes multilíngues MiniMax TTS, o WER superou o MiniMax, o ElevenLabs e o GPT-4o-Audio-Preview. #TTS #DesignDeVoz #ClonagemDeVoz

API VD:alibabacloud.com/help/en/model-…g API Valibabacloud.com/help/en/model-…w9i qwen.ai/blog?id=qwen3-…jCIdAhg

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread