微軟剛剛發布了VibeVoice-Realtime-0.5B! 這個0.5B的TTS(文本生成語音)模型主打快速生成, 官方給到的測試是從輸入文本後等300ms就能開始說話了. 我給大家錄了實測的英文效果, 的確可以. 不過目前模型只支持英文. 當然我也試了中文, 效果大概跟剛上了幾個月語言學校的老外差不多. 目前這個模型最大的應用場景是接在文本大模型後面, 可以實現大模型開始輸出文本的同時進行朗讀. 模型位址:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。