Alibaba は、ローカルに展開できるゼロショット音声クローンである TTS: Fun-CosyVoice3 0.5B をオープンソース化しました。 また、彼らは Fun-ASR-Nano 0.8B と呼ばれる ASR をオープンソース化しました。これは推論コストが低く、ローカルで微調整してカスタマイズできる Fun-ASR の軽量バージョンです。 さらに、Fun-CosyVoice3 モデルがアップグレードされ、最初のパケットの遅延が 50%、WER が 56.4%、複雑なシナリオでの文字エラー率が 26% 削減されました。 9つの一般的な言語、18の中国語方言、9つの感情コントロールをサポートし、言語間の声の音色を再現できます。例えば、北京語で録音した音声から、広東語、日本語、英語などを生成できます。 双方向ストリーミング合成をサポートし、「入力から音声」を可能にします。これは、音声アシスタント、ライブダビング、アクセシブルな読み取りなどのリアルタイムのシナリオに適しています。 Fun-ASRもアップグレードされ、騒音環境下でも93%の精度を達成しました。歌詞とラップの認識機能が追加され、言語を事前に指定することなく、31言語の混合音声に対応しました。 7 つの主要な方言と 26 の地方アクセントをカバーし、ストリーミング認識モデルの最初の文字の遅延は 160 ミリ秒に短縮されました。 #TTS #ASR
字幕: HF:huggingface.co/FunAudioLLM/Fu…J ギットハブ:github.com/FunAudioLLM/Co…C ASR: ギットハブgithub.com/FunAudioLLM/Fu…rf huggingface.co/FunAudioLLM/Fu…jPvc
