微軟剛剛發布了VibeVoice-Realtime-0.5B! 這個0.5B的TTS(文本生成語音)模型主打快速生成, 官方給到的測試是從輸入文本後等300ms就能開始說話了. 我給大家錄了實測的英文效果, 的確可以. 不過目前模型只支持英文. 當然我也試了中文, 效果大概跟剛上了幾個月語言學校的老外差不多. 目前這個模型最大的應用場景是接在文本大模型後面, 可以實現大模型開始輸出文本的同時進行朗讀. 模型位址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。