Microsoft lanza VibeVoice-Realtime-0.5B Modelo de texto a voz en tiempo real La transcripción casi en tiempo real puede comenzar incluso antes de que el hablante haya terminado de hablar 😅 Admite tanto chino como inglés, pero la compatibilidad con chino es ligeramente más débil. Las principales características son: 🕒 Salida de sonido casi en tiempo real (300 milisegundos) 🗣️ La voz es natural y fluida, capaz de leer textos largos y generar grabaciones de audio fluidas de hasta 90 minutos de duración. 💻 Admite un diálogo natural entre hasta 4 personajes, manteniendo un tono y un ritmo consistentes (como en las entrevistas de podcast). 🎭 Puede capturar cambios emocionales y reconocer y expresar automáticamente emociones como ira, disculpas y emoción. 🧩Memoria contextual: Mantener la coherencia en el tono, el ritmo y la lógica, hablando con fluidez como una persona real. 🔧 Tamaño pequeño y alta velocidad, adecuado para integrar en aplicaciones (por ejemplo, para permitir que los asistentes de IA "hablen" directamente)
Versión en inglés
La calificación es bastante alta.
Presentación mixta xiaohu.ai/c/a066c4/vibev…a obtemicrosoft.github.io/VibeVoice/da y más estudios de casos, visite: https://t.co/2U7qrPqWOk Dirección del proyecto: https://t.co/3DQV0xwNJO
