Esta tarde adicionei a versão mais recente do Sonic 3 TTS de @cartesia_ai ao TEN. Este sistema de síntese de texto utiliza uma arquitetura de modelos de espaço de estados. Eles afirmam superar os modelos tradicionais de síntese de voz treinados com Transformers em termos de velocidade, emoção e expressividade. Embora ofereça suporte ao chinês, na minha experiência, o chinês não é suficientemente autêntico; o sotaque americano é um pouco carregado. Parece que o velho ditado ainda se aplica: para superar as barreiras, o TTS (Sistema de Tradução e Resposta) não pode ter sotaque, senão soará estranho. Talvez, para incorporar o TTS de forma realmente eficaz, ainda sejam necessários falantes nativos.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.