A Microsoft acaba de lançar uma ferramenta de TTS (conversão de texto em fala) leve e em tempo real: VibeVoice-Realtime-0.5B, que se concentra em baixa latência, entrada de fluxo contínuo e geração de áudio de longa duração. O atraso do primeiro pacote de áudio é de aproximadamente 300 milissegundos, a taxa de erro de palavras (WER) é de 2% e a similaridade entre falantes é de 0,69. O texto pode ser inserido segmento por segmento; não é necessário esperar que todas as respostas sejam geradas. A voz começa a falar mesmo enquanto o texto ainda está sendo gerado. O design de janela escalonada permite a leitura simultânea de novos textos e a continuação de códigos latentes acústicos usando um modelo de difusão, possibilitando a geração simultânea de fala para texto. Esta versão consegue sintetizar aproximadamente 10 minutos de fala contínua. Suporta apenas um único locutor e o idioma inglês. #TTS #VibeVozEmTempoReal
github:github.com/microsoft/Vibe… HF:huggingface.co/microsoft/Vibe…