X (Twitter)

A Microsoft lança o VibeVoice-Realtime-0.5B Modelo de conversão de texto em fala em tempo real A transcrição quase em tempo real pode começar antes mesmo do orador terminar de falar 😅 Oferece suporte tanto para chinês quanto para inglês, mas o suporte para chinês é ligeiramente mais fraco. As principais características são: 🕒 Saída de som quase em tempo real (300 milissegundos) 🗣️ A voz é natural e fluente, capaz de ler textos longos e gerar gravações de áudio fluentes com até 90 minutos de duração. 💻 Suporta diálogos naturais entre até 4 personagens, mantendo tom e ritmo consistentes (como em entrevistas de podcast). 🎭 Ele consegue captar mudanças emocionais e reconhecer e expressar automaticamente emoções como raiva, pedido de desculpas e entusiasmo. 🧩 Memória contextual: Manter a consistência no tom, ritmo e lógica, falando fluentemente como uma pessoa real. 🔧 Tamanho reduzido e alta velocidade, ideal para incorporação em aplicações (como permitir que assistentes de IA "falem" diretamente)

Versão em inglês

A classificação é bastante alta.

Apresentação mista xiaohu.ai/c/a066c4/vibev…ra obtmicrosoft.github.io/VibeVoice/as e mais estudos de caso, visite: https://t.co/2U7qrPqWOk Endereço do projeto: https://t.co/3DQV0xwNJO

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread