Microsoft が VibeVoice-Realtime-0.5B をリリースしました。 この 0.5B TTS (テキスト読み上げ) モデルは、高速生成に重点を置いており、公式テストでは、入力テキストから 300 ミリ秒後に読み上げを開始できることが示されています。 英語の効果を示すテスト動画を録画しましたが、確かにうまくいきました。ただし、このモデルは現在英語のみに対応しています。中国語でも試してみましたが、結果は語学学校に数ヶ月通ったばかりの外国人とほぼ同じでした。 現在、このモデルの最大の応用シナリオは、大きなテキスト モデルに接続され、大きなモデルがテキストの出力を開始すると同時にそれを読み上げることです。 モデルアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。