X (Twitter)

微軟剛剛發布了VibeVoice-Realtime-0.5B！這個0.5B的TTS(文本生成語音)模型主打快速生成, 官方給到的測試是從輸入文本後等300ms就能開始說話了. 我給大家錄了實測的英文效果, 的確可以. 不過目前模型只支持英文. 當然我也試了中文, 效果大概跟剛上了幾個月語言學校的老外差不多. 目前這個模型最大的應用場景是接在文本大模型後面, 可以實現大模型開始輸出文本的同時進行朗讀. 模型位址:

來自 karminski-牙医（@karminski3）的推文串

作者資訊

推文串內容