微軟推出VibeVoice-Realtime-0.5B 即時文字轉語音模型 幾乎即時轉錄話還沒說完即可開始😅 支援中英文,中文差一點 主要特點是: 🕒 幾乎是即時發聲(300毫秒) 🗣️ 聲音自然流暢,能朗讀長文本,可產生長達90 分鐘的流暢語音 💻 支援最多4個角色自然對話,保持各自語氣、節奏一致(如播客訪談) 🎭 能捕捉情緒變化,可自動辨識並表達情緒,如憤怒、抱歉、激動 🧩 情境記憶:保持語調、語速、邏輯一致,像真人連貫發言 🔧 體積小、速度快,適合嵌入應用中(例如讓AI助理直接「說話」)
英文版本
評分還挺高
中英文混雜演示 詳細介紹更多案例:hxiaohu.ai/c/a066c4/vibev…專案網址:https://t.co/3DQV0xwNJO
