¡Microsoft acaba de lanzar VibeVoice-Realtime-0.5B! Este modelo TTS (texto a voz) de 0,5 B se centra en la generación rápida; la prueba oficial muestra que puede comenzar a hablar después de 300 ms desde el texto de entrada. Grabé un video de prueba que muestra el efecto inglés y funciona. Sin embargo, el modelo actualmente solo admite inglés. También probé con chino y el resultado fue prácticamente el mismo que el de un extranjero que acaba de asistir a una escuela de idiomas durante unos meses. Actualmente, el escenario de aplicación más grande para este modelo es cuando se adjunta a un modelo de texto grande, lo que permite que el modelo grande comience a generar texto mientras lo lee en voz alta simultáneamente. Dirección del modelo:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.