Microsoft は、低遅延、ストリーミング入力、長いオーディオ生成に重点を置いた軽量リアルタイム TTS ツール VibeVoice-Realtime-0.5B をリリースしました。 最初のパケットのオーディオ遅延は約 300 ミリ秒、WER は 2%、話者の類似度は 0.69 です。 テキストはセグメントごとに入力できます。すべての回答が生成されるのを待つ必要はありません。テキスト生成中でも音声は読み上げを開始します。 ずらしたウィンドウ設計により、拡散モデルを使用して新しいテキストの同時読み取りと音響潜在コードの継続が可能になり、音声からテキストへの同時生成が可能になります。 このバージョンでは、約10分間の音声を連続して合成できます。単一話者かつ英語のみに対応しています。 #TTS #バイブボイスリアルタイム
ギットハブ: github.com/microsoft/Vibe… HFhuggingface.co/microsoft/Vibe…LO