今日の午後、@cartesia_ai の最新の Sonic 3 TTS を TEN に追加しました。 この TTS は状態空間モデル アーキテクチャを使用します。 彼らは、速度、感情、表現力の点で、従来のトランスフォーマートレーニング済み TTS モデルよりも優れていると主張しています。 中国語もサポートしていますが、私の経験では、中国語は本物らしくなく、アメリカ英語のアクセントが少し強いです。 古くから言われていることは今でも当てはまるようです。「ギャップを埋めるには、TTS(翻訳・応答システム)に訛りがあってはいけない。訛りがあると違和感を感じる」。おそらく、TTSを真に効果的に機能させるには、やはり現地の人々が必要なのでしょう。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。