X (Twitter)

阿里剛剛開源了TTS：Fun-CosyVoice3 0.5B，zero-shot音色克隆，可本地部署也開源了ASR【Fun-ASR-Nano 0.8B】，Fun-ASR的輕量化版本，推理成本更低，可以本地及客製化微調另外，Fun-CosyVoice3模型做了升級，首包延遲比之前降低了50%，WER降低了56.4%，複雜場景字元錯誤率降低了26% 支援9種通用語言、18種中文方言、9種情緒控制，可以跨語種音色復刻，比如說，用一段國語錄音可產生粵語、日語、英語等支援雙向流式合成，“輸入即發聲”，這個適用於語音助理、直播配音、無障礙閱讀等等實時場景 Fun-ASR也升級了，噪音場景下準確率到了93%，新增歌詞與饒舌辨識能力，支援31種語言自由混說無需預先指定語種涵蓋7大方言和26種地方口音，流式辨識模型的首字延遲降低到了160ms #TTS #ASR

TTS： HF：huggingface.co/FunAudioLLM/Fu… github：github.com/FunAudioLLM/Co… ASR： github：github.com/FunAudioLLM/Fu… HF：huggingface.co/FunAudioLLM/Fu…

TTS：
HF：https://t.co/fxnRlSjX6J
github：https://t.co/MCLjrMsloC

ASR：
github：https://t.co/xFL8wPUPrf
HF：https://t.co/2tOv

来自 AIGCLINK（@aigclink）的推文线程

作者信息

线程正文