X (Twitter)

Microsoft에서 VibeVoice-Realtime-0.5B를 출시했습니다! 이 0.5B TTS(텍스트-음성 변환) 모델은 빠른 생성에 초점을 맞춥니다. 공식 테스트 결과, 입력 텍스트를 받고 300ms 후에 말하기를 시작할 수 있는 것으로 나타났습니다. 영어 효과를 보여주는 테스트 영상을 녹화했는데, 잘 작동합니다. 하지만 현재 모델은 영어만 지원합니다. 중국어도 시도해 봤는데, 결과는 몇 달 동안 어학원에 다닌 외국인과 거의 비슷했습니다. 현재 이 모델을 적용하는 가장 큰 시나리오는 큰 텍스트 모델에 연결하여 큰 모델이 텍스트를 출력하는 동시에 큰 소리로 읽는 경우입니다. 모델 주소:

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용