阿里剛剛開源了TTS:Fun-CosyVoice3 0.5B,zero-shot音色克隆,可本地部署 也開源了ASR【Fun-ASR-Nano 0.8B】,Fun-ASR的輕量化版本,推理成本更低,可以本地及客製化微調 另外,Fun-CosyVoice3模型做了升級,首包延遲比之前降低了50%,WER降低了56.4%,複雜場景字元錯誤率降低了26% 支援9種通用語言、18種中文方言、9種情緒控制,可以跨語種音色復刻,比如說,用一段國語錄音可產生粵語、日語、英語等 支援雙向流式合成,“輸入即發聲”,這個適用於語音助理、直播配音、無障礙閱讀等等實時場景 Fun-ASR也升級了,噪音場景下準確率到了93%,新增歌詞與饒舌辨識能力,支援31種語言自由混說無需預先指定語種 涵蓋7大方言和26種地方口音,流式辨識模型的首字延遲降低到了160ms #TTS #ASR
TTS: HF:huggingface.co/FunAudioLLM/Fu… github:github.com/FunAudioLLM/Co… ASR: github:github.com/FunAudioLLM/Fu… HF:huggingface.co/FunAudioLLM/Fu…
