Alibaba acaba de publicar el código abierto de TTS: Fun-CosyVoice3 0.5B, un clon de voz de ejecución cero que puede implementarse localmente. También publicaron en código abierto un ASR llamado Fun-ASR-Nano 0.8B, una versión liviana de Fun-ASR con menores costos de inferencia y la capacidad de ajustarse localmente y personalizarse. Además, se ha actualizado el modelo Fun-CosyVoice3, reduciendo la latencia del primer paquete en un 50%, el WER en un 56,4% y la tasa de error de caracteres en escenarios complejos en un 26%. Compatible con 9 idiomas comunes, 18 dialectos chinos y 9 controles de emociones, y puede replicar el timbre de voz en diferentes idiomas. Por ejemplo, una grabación en mandarín puede generarse en cantonés, japonés, inglés, etc. Admite síntesis de transmisión bidireccional, lo que permite la "entrada a voz", lo cual es adecuado para escenarios en tiempo real, como asistentes de voz, doblaje en vivo y lectura accesible. Fun-ASR también se ha mejorado, alcanzando una precisión del 93 % en entornos ruidosos. Ahora cuenta con funciones de reconocimiento de letras y rap, y admite voz mixta en 31 idiomas sin necesidad de predefinir idiomas. Al cubrir 7 dialectos principales y 26 acentos locales, la latencia del primer carácter del modelo de reconocimiento de transmisión se ha reducido a 160 ms. #TTS #ASR
Texto a huggingface.co/FunAudioLLM/Fu…https://github.com/FunAudioLLM/Co…: https://t.cogithub.com/FunAudioLLM/Fu…hub:huggingface.co/FunAudioLLM/Fu…f Alta frecuencia: https://t.co/2tOvIljPvc
