X (Twitter)

Cet après-midi, j'ai ajouté la dernière synthèse vocale Sonic 3 de @cartesia_ai à TEN. Ce système de synthèse vocale utilise une architecture de modèles d'espace d'état. Ils affirment surpasser les modèles TTS traditionnels entraînés par transformateur en termes de vitesse, d'émotion et d'expressivité. Bien qu'il prenne en charge le chinois, d'après mon expérience, le chinois n'est pas assez authentique ; l'accent américain est un peu trop prononcé. Il semblerait que le vieil adage reste d'actualité : pour combler le fossé, un système de synthèse vocale (TTS) ne peut avoir d'accent, sous peine de créer une rupture. Peut-être que, pour une efficacité optimale, le recours à des locuteurs natifs demeure indispensable.

Fil de 艾略特 (@elliotchen100)

Informations sur l'auteur

Contenu du fil