Microsoft acaba de lanzar una herramienta TTS en tiempo real liviana: VibeVoice-Realtime-0.5B, que se centra en la baja latencia, la entrada de streaming y la generación de audio de larga duración. El retraso de audio del primer paquete es de aproximadamente 300 milisegundos, el WER es del 2% y la similitud de los hablantes es de 0,69. El texto se puede introducir segmento por segmento; no es necesario esperar a que se generen todas las respuestas. La voz empieza a hablar incluso mientras se genera el texto. El diseño de ventana escalonada permite la lectura simultánea de texto nuevo y la continuación de códigos acústicos latentes utilizando un modelo de difusión, lo que posibilita la generación simultánea de voz a texto. Esta versión puede sintetizar aproximadamente 10 minutos de voz de forma continua. Solo admite un solo hablante y habla en inglés. #TTS #VibeVoiceRealtime
github:github.com/microsoft/Vibe…w Ahuggingface.co/microsoft/Vibe…/t.co/u3Vx8rPdLO