X (Twitter)

A Alibaba acaba de disponibilizar o código aberto do TTS: Fun-CosyVoice3 0.5B, um clone de voz que não requer nenhum comando prévio e pode ser implementado localmente. Eles também disponibilizaram como código aberto um ASR chamado Fun-ASR-Nano 0.8B, uma versão mais leve do Fun-ASR com custos de inferência mais baixos e a capacidade de ser ajustada localmente e personalizada. Além disso, o modelo Fun-CosyVoice3 foi atualizado, reduzindo a latência do primeiro pacote em 50%, a taxa de erro de palavras (WER) em 56,4% e a taxa de erro de caracteres em cenários complexos em 26%. Suporta 9 idiomas comuns, 18 dialetos chineses e 9 controles de emoção, e pode replicar o timbre da voz em diferentes idiomas. Por exemplo, uma gravação em mandarim pode gerar cantonês, japonês, inglês, etc. Suporta síntese de fluxo bidirecional, permitindo a conversão de entrada em fala, o que é adequado para cenários em tempo real, como assistentes de voz, dublagem ao vivo e leitura acessível. O Fun-ASR também foi aprimorado, atingindo 93% de precisão em ambientes ruidosos. Agora, ele conta com recursos de reconhecimento de letras de música e rap, além de suportar fala mista em 31 idiomas sem a necessidade de pré-especificação de idiomas. Abrangendo 7 dialetos principais e 26 sotaques locais, a latência do primeiro caractere do modelo de reconhecimento de fluxo contínuo foi reduzida para 160 ms. #TTS #ASR

TTS： HF：huggingface.co/FunAudioLLM/Fu… github：github.com/FunAudioLLM/Co… ASR： github：github.com/FunAudioLLM/Fu… HF：huggingface.co/FunAudioLLM/Fu…

TTS：
HF：https://t.co/fxnRlSjX6J
github：https://t.co/MCLjrMsloC

ASR：
github：https://t.co/xFL8wPUPrf
HF：https://t.co/2tOv

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread