Microsoft는 방금 가벼운 실시간 TTS 도구인 VibeVoice-Realtime-0.5B를 출시했습니다. 이 도구는 낮은 지연 시간, 스트리밍 입력, 긴 오디오 생성에 중점을 두고 있습니다. 첫 번째 패킷 오디오 지연은 약 300밀리초이고, WER은 2%이며, 화자 유사도는 0.69입니다. 텍스트를 세그먼트별로 입력할 수 있으므로 모든 답변이 생성될 때까지 기다릴 필요가 없습니다. 텍스트가 생성되는 동안에도 음성이 시작됩니다. 계단형 창 디자인은 확산 모델을 사용하여 새로운 텍스트를 동시에 읽고 음향 잠재 코드를 계속 읽을 수 있게 하여 음성-텍스트 생성을 동시에 수행할 수 있습니다. 이 버전은 약 10분 분량의 음성을 연속으로 합성할 수 있습니다. 단일 화자와 영어만 지원합니다. #TTS #바이브보이스실시간
깃허브: htgithub.com/microsoft/Vibe…HF: huggingface.co/microsoft/Vibe…