X (Twitter)

今日の午後、@cartesia_ai の最新の Sonic 3 TTS を TEN に追加しました。この TTS は状態空間モデルアーキテクチャを使用します。彼らは、速度、感情、表現力の点で、従来のトランスフォーマートレーニング済み TTS モデルよりも優れていると主張しています。中国語もサポートしていますが、私の経験では、中国語は本物らしくなく、アメリカ英語のアクセントが少し強いです。古くから言われていることは今でも当てはまるようです。「ギャップを埋めるには、TTS（翻訳・応答システム）に訛りがあってはいけない。訛りがあると違和感を感じる」。おそらく、TTSを真に効果的に機能させるには、やはり現地の人々が必要なのでしょう。

艾略特（@elliotchen100）のスレッド

作者情報

スレッド内容