X (Twitter)

Alibaba ha lanzado dos nuevos sistemas TTS: Qwen3-TTS-VD-Flash y Qwen3-TTS-VC-Flash. En resumen, estos dos modelos pueden clonar una voz en 3 segundos o crear una nueva voz utilizando lenguaje natural, lo que permite a la IA hablar naturalmente en cualquier rol, idioma y emoción. El texto es sólido y puede manejar texto diverso y no normalizado. 1. El modelo de creación de tonos VD-Flash resuelve el problema de solo poder clonar tonos existentes o solo poder seleccionar tonos preestablecidos fijos. Puede crear cualquier voz, edad, género, emoción y personalidad utilizando lenguaje natural y admite comandos complejos. En InstructTTS-Eval, supera a GPT-4o-mini-tts y Mimo-audio-7b-instruct en rendimiento general, y supera a Gemini-2.5-pro-preview-tts en pruebas de juego de roles. 2. Modelo de clonación de tonos VC-Flash Clon de 3 segundos Puede generar 10 idiomas, incluidos chino, inglés, alemán, italiano, portugués, español, japonés, coreano, francés y ruso, basándose en voces clonadas. En el conjunto de pruebas multilingües MiniMax TTS, WER superó a MiniMax, ElevenLabs y GPT-4o-Audio-Preview. #TTS #DiseñoDeVoz #ClonDeVoz

API de alibabacloud.com/help/en/model-…Ymcg APalibabacloud.com/help/en/model-…tps:qwen.ai/blog?id=qwen3-…: https://t.co/50bjCIdAhg

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo