X (Twitter)

MicrosoftがVibeVoice-Realtime-0.5Bをリリースリアルタイムテキスト読み上げモデル話者が話し終える前でも、ほぼリアルタイムで文字起こしを開始できます 😅 中国語と英語の両方をサポートしていますが、中国語のサポートは少し弱いです。主な機能は次のとおりです。 🕒 ほぼリアルタイムのサウンド出力（300ミリ秒） 🗣️ 音声は自然で流暢であり、長いテキストを読み上げ、最長 90 分間の流暢な音声録音を生成できます。 💻 最大 4 人のキャラクター間の自然な会話をサポートし、一貫したトーンとリズムを維持します (ポッドキャストのインタビューなど)。 🎭 感情の変化を捉え、怒り、謝罪、興奮などの感情を自動で認識して表現することができます。 🧩 文脈記憶: 口調、ペース、論理の一貫性を保ち、実際の人間のように流暢に話します。 🔧 小型で高速、アプリケーションへの組み込みに適しています（AIアシスタントが直接「話す」など）

英語版

評価はかなり高いです。

中国語と英語の混合プレゼンテーション xiaohu.ai/c/a066c4/vibev…https:microsoft.github.io/VibeVoice/さい。プロジェクトアドレス: https://t.co/3DQV0xwNJO

小互（@imxiaohu）のスレッド

作者情報

スレッド内容