MicrosoftがVibeVoice-Realtime-0.5Bをリリース リアルタイムテキスト読み上げモデル 話者が話し終える前でも、ほぼリアルタイムで文字起こしを開始できます 😅 中国語と英語の両方をサポートしていますが、中国語のサポートは少し弱いです。 主な機能は次のとおりです。 🕒 ほぼリアルタイムのサウンド出力(300ミリ秒) 🗣️ 音声は自然で流暢であり、長いテキストを読み上げ、最長 90 分間の流暢な音声録音を生成できます。 💻 最大 4 人のキャラクター間の自然な会話をサポートし、一貫したトーンとリズムを維持します (ポッドキャストのインタビューなど)。 🎭 感情の変化を捉え、怒り、謝罪、興奮などの感情を自動で認識して表現することができます。 🧩 文脈記憶: 口調、ペース、論理の一貫性を保ち、実際の人間のように流暢に話します。 🔧 小型で高速、アプリケーションへの組み込みに適しています(AIアシスタントが直接「話す」など)
英語版
評価はかなり高いです。
中国語と英語の混合プレゼンテーション xiaohu.ai/c/a066c4/vibev…https:microsoft.github.io/VibeVoice/さい。 プロジェクトアドレス: https://t.co/3DQV0xwNJO
