알리바바는 로컬 환경에 배포할 수 있는 제로샷 음성 복제 도구인 TTS(Temporary Text Translation) Fun-CosyVoice3 0.5B를 오픈소스로 공개했습니다. 또한 그들은 Fun-ASR의 경량 버전인 Fun-ASR-Nano 0.8B라는 ASR을 오픈소스로 공개했는데, 이는 추론 비용이 더 낮고 로컬에서 미세 조정 및 사용자 정의가 가능한 기능을 갖추고 있습니다. 또한 Fun-CosyVoice3 모델이 업그레이드되어 첫 패킷 지연 시간이 50% 감소하고, WER(단어 오류율)이 56.4% 감소했으며, 복잡한 시나리오에서의 문자 오류율이 26% 감소했습니다. 9개의 일반 언어, 18개의 중국어 방언, 9가지 감정 표현을 지원하며, 언어 간 음색을 재현할 수 있습니다. 예를 들어, 만다린어로 녹음한 음성으로 광둥어, 일본어, 영어 등을 생성할 수 있습니다. 양방향 스트리밍 합성을 지원하여 "입력-음성 변환"이 가능하며, 이는 음성 비서, 실시간 더빙, 접근성 높은 읽기 자료 제공과 같은 실시간 시나리오에 적합합니다. Fun-ASR도 업그레이드되어 소음이 심한 환경에서도 93%의 정확도를 달성했습니다. 이제 가사와 랩 인식 기능을 갖추고 있으며, 언어를 미리 지정할 필요 없이 31개 언어의 혼합 음성을 지원합니다. 7개의 주요 방언과 26개의 지역 사투리를 포괄하는 스트리밍 인식 모델의 첫 글자 인식 지연 시간은 160ms로 단축되었습니다. #TTS #ASR
TTS: HFhuggingface.co/FunAudioLLM/Fu…6J 깃허브:github.com/FunAudioLLM/Co…C ASR: 깃허브:github.com/FunAudioLLM/Fu…f Hhuggingface.co/FunAudioLLM/Fu…Pvc
