A Alibaba acaba de disponibilizar o código aberto do TTS: Fun-CosyVoice3 0.5B, um clone de voz que não requer nenhum comando prévio e pode ser implementado localmente. Eles também disponibilizaram como código aberto um ASR chamado Fun-ASR-Nano 0.8B, uma versão mais leve do Fun-ASR com custos de inferência mais baixos e a capacidade de ser ajustada localmente e personalizada. Além disso, o modelo Fun-CosyVoice3 foi atualizado, reduzindo a latência do primeiro pacote em 50%, a taxa de erro de palavras (WER) em 56,4% e a taxa de erro de caracteres em cenários complexos em 26%. Suporta 9 idiomas comuns, 18 dialetos chineses e 9 controles de emoção, e pode replicar o timbre da voz em diferentes idiomas. Por exemplo, uma gravação em mandarim pode gerar cantonês, japonês, inglês, etc. Suporta síntese de fluxo bidirecional, permitindo a conversão de entrada em fala, o que é adequado para cenários em tempo real, como assistentes de voz, dublagem ao vivo e leitura acessível. O Fun-ASR também foi aprimorado, atingindo 93% de precisão em ambientes ruidosos. Agora, ele conta com recursos de reconhecimento de letras de música e rap, além de suportar fala mista em 31 idiomas sem a necessidade de pré-especificação de idiomas. Abrangendo 7 dialetos principais e 26 sotaques locais, a latência do primeiro caractere do modelo de reconhecimento de fluxo contínuo foi reduzida para 160 ms. #TTS #ASR
TTS: HF:huggingface.co/FunAudioLLM/Fu… github:github.com/FunAudioLLM/Co… ASR: github:github.com/FunAudioLLM/Fu… HF:huggingface.co/FunAudioLLM/Fu…
