X (Twitter)

Esta tarde adicionei a versão mais recente do Sonic 3 TTS de @cartesia_ai ao TEN. Este sistema de síntese de texto utiliza uma arquitetura de modelos de espaço de estados. Eles afirmam superar os modelos tradicionais de síntese de voz treinados com Transformers em termos de velocidade, emoção e expressividade. Embora ofereça suporte ao chinês, na minha experiência, o chinês não é suficientemente autêntico; o sotaque americano é um pouco carregado. Parece que o velho ditado ainda se aplica: para superar as barreiras, o TTS (Sistema de Tradução e Resposta) não pode ter sotaque, senão soará estranho. Talvez, para incorporar o TTS de forma realmente eficaz, ainda sejam necessários falantes nativos.

Thread de 艾略特 (@elliotchen100)

Informações do autor

Conteúdo da thread