알리바바는 Qwen3-TTS-VD-Flash와 Qwen3-TTS-VC-Flash라는 두 가지 새로운 TTS 시스템을 출시했습니다. 요약하자면, 이 두 모델은 3초 만에 목소리를 복제하거나 자연어를 사용하여 새로운 목소리를 생성할 수 있어 AI가 어떤 역할, 언어, 감정으로든 자연스럽게 말할 수 있게 해줍니다. 이 텍스트 처리기는 안정적이며 다양하고 비정규화된 텍스트를 처리할 수 있습니다. 1. VD-Flash의 톤 생성 모델은 기존 톤을 복제하거나 고정된 프리셋 톤만 선택할 수 있었던 문제를 해결합니다. 이 프로그램은 자연어를 사용하여 어떤 목소리, 나이, 성별, 감정, 페르소나든 생성할 수 있으며 복잡한 명령도 지원합니다. InstructTTS-Eval에서 이 모델은 전반적인 성능 면에서 GPT-4o-mini-tts 및 Mimo-audio-7b-instruct를 능가하며, 역할극 테스트에서는 Gemini-2.5-pro-preview-tts를 뛰어넘습니다. 2. VC-Flash 톤 복제 모델 3s 클론 이 프로그램은 복제된 음성을 기반으로 중국어, 영어, 독일어, 이탈리아어, 포르투갈어, 스페인어, 일본어, 한국어, 프랑스어, 러시아어를 포함한 10개 언어를 생성할 수 있습니다. MiniMax TTS 다국어 테스트 세트에서 WER은 MiniMax, ElevenLabs 및 GPT-4o-Audio-Preview보다 우수한 성능을 보였습니다. #TTS #음성디자인 #음성복제
VD API:alibabacloud.com/help/en/model-…g VC APalibabacloud.com/help/en/model-…w9i qwen.ai/blog?id=qwen3-…CIdAhg