X (Twitter)

微軟剛剛最新放出來一款輕量級即時TTS：VibeVoice-Realtime-0.5B，主打低延遲、串流輸入、長音訊生成首包音訊延遲約300毫秒，WER 2%、說話者相似度0.69 文本可以逐段灌入，無需等全部答案生成，文本還在往外蹦，聲音就已經開口說了交錯視窗設計，一邊讀新文本，一邊用擴散模型續寫聲學潛碼，實現邊說邊生成可連續合成約10分鐘語音這個版本只支援單說話者、英語 #TTS #VibeVoiceRealtime

github：github.com/microsoft/Vibe… HF：huggingface.co/microsoft/Vibe…

来自 AIGCLINK（@aigclink）的推文线程

作者信息

线程正文