微軟剛剛最新放出來一款輕量級即時TTS:VibeVoice-Realtime-0.5B,主打低延遲、串流輸入、長音訊生成 首包音訊延遲約300毫秒,WER 2%、說話者相似度0.69 文本可以逐段灌入,無需等全部答案生成,文本還在往外蹦,聲音就已經開口說了 交錯視窗設計,一邊讀新文本,一邊用擴散模型續寫聲學潛碼,實現邊說邊生成 可連續合成約10分鐘語音這個版本只支援單說話者、英語 #TTS #VibeVoiceRealtime
github:github.com/microsoft/Vibe… HF:huggingface.co/microsoft/Vibe…