A Microsoft acaba de lançar o VibeVoice-Realtime-0.5B! Este modelo TTS (Text-to-Speech) de 0,5B foca na geração rápida; o teste oficial mostra que ele pode começar a falar após 300ms do texto de entrada. Gravei um vídeo de teste mostrando o efeito em inglês, e funciona. No entanto, o modelo atualmente só suporta inglês. Também testei com chinês, e o resultado foi praticamente o mesmo de um estrangeiro que frequentou uma escola de idiomas por apenas alguns meses. Atualmente, o principal cenário de aplicação para este modelo é quando ele é anexado a um modelo de texto grande, permitindo que o modelo grande comece a exibir o texto enquanto o lê em voz alta simultaneamente. Endereço do modelo:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.