下午把@cartesia_ai 最新的Sonic 3 TTS 加到了TEN 這個TTS 用的是State Space Models (狀態空間模型) 架構 他們宣稱在速度,情感,表現力上都比傳統的transformer 訓練的TTS 模型更好 雖然支持中文,但我體驗下來,中文還是不夠道,美式中文的口音有點重 看來還是那句話,想要拉進距離,TTS 不能有一點口音,否則齣戲。也許,要做好TTS 真的還需要本地人來。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。