Microsoft vient de publier un outil TTS léger en temps réel : VibeVoice-Realtime-0.5B, qui met l’accent sur une faible latence, l’entrée en flux continu et la génération audio longue durée. Le délai audio du premier paquet est d'environ 300 millisecondes, le WER est de 2 % et la similarité du locuteur est de 0,69. Le texte peut être saisi segment par segment ; il n’est pas nécessaire d’attendre la génération de toutes les réponses. La voix commence à parler pendant même que le texte est encore en cours de génération. La conception à fenêtres décalées permet la lecture simultanée d'un nouveau texte et la poursuite des codes acoustiques latents à l'aide d'un modèle de diffusion, permettant ainsi la génération simultanée de la parole en texte. Cette version peut synthétiser environ 10 minutes de parole en continu. Elle ne prend en charge qu'un seul locuteur et l'anglais. #TTS #VibeVoiceRealtime
github:github.com/microsoft/Vibe… HF:huggingface.co/microsoft/Vibe…