Google の新しい Gemini TTS モデルは素晴らしいです! プロンプトを通じて、話者の性別、口調、イントネーション、単語の発音、年齢を直接制御できます。 別の音声モデルに切り替える必要もなく、考えられるすべてを制御できます。 私の AI インタラクティブ コミック アプリがついに完成しました! Nano Banana Pro を使用して各シーンの画像を動的に生成し、新しい TTS を使用して各キャラクターに固有の音声を生成します。
中国語を話すときでも、外国語のアクセントなど、古い問題がまだいくつか残っています。 しかし、中国語の音声に関しては以前のTTSよりはるかに優れています。北京語のこの奇妙な音調の問題が修正されることを期待しています。
プロンプトを調整しました。以前間違って聞こえた場合はもう一度試してください。