Alibaba vient de publier en open source TTS : Fun-CosyVoice3 0.5B, un clone vocal zéro-shot qui peut être déployé localement. Ils ont également mis en open source un ASR appelé Fun-ASR-Nano 0.8B, une version légère de Fun-ASR avec des coûts d'inférence plus faibles et la possibilité d'être finement réglé localement et personnalisé. De plus, le modèle Fun-CosyVoice3 a été amélioré, réduisant la latence du premier paquet de 50 %, le WER de 56,4 % et le taux d'erreur de caractères dans les scénarios complexes de 26 %. Il prend en charge 9 langues courantes, 18 dialectes chinois et 9 modes de contrôle des émotions, et peut reproduire le timbre de la voix dans différentes langues. Par exemple, un enregistrement en mandarin peut être traduit en cantonais, japonais, anglais, etc. Prend en charge la synthèse vocale bidirectionnelle, permettant la conversion de l'entrée en parole, ce qui convient aux scénarios en temps réel tels que les assistants vocaux, le doublage en direct et la lecture accessible. Fun-ASR a également été amélioré, atteignant une précision de 93 % même dans les environnements bruyants. Il offre désormais des fonctionnalités de reconnaissance de paroles et de rap et prend en charge la parole mixte dans 31 langues sans qu'il soit nécessaire de les spécifier au préalable. Couvrant 7 dialectes majeurs et 26 accents locaux, la latence du premier caractère du modèle de reconnaissance en flux continu a été réduite à 160 ms. #TTS #ASR
TTS: HF:huggingface.co/FunAudioLLM/Fu… github:github.com/FunAudioLLM/Co… ASR: github:github.com/FunAudioLLM/Fu… HF:huggingface.co/FunAudioLLM/Fu…
