Microsoft에서 VibeVoice-Realtime-0.5B를 출시했습니다. 실시간 텍스트-음성 모델 말하는 사람이 말을 마치기도 전에 거의 실시간에 가까운 필사를 시작할 수 있습니다 😅 중국어와 영어를 모두 지원하지만, 중국어 지원이 약간 약합니다. 주요 특징은 다음과 같습니다. 🕒 거의 실시간 사운드 출력(300밀리초) 🗣️ 음성이 자연스럽고 유창하여 긴 텍스트를 읽고 최대 90분 길이의 유창한 오디오 녹음을 생성할 수 있습니다. 💻 최대 4명의 캐릭터 간의 자연스러운 대화를 지원하며 일관된 톤과 리듬을 유지합니다(예: 팟캐스트 인터뷰). 🎭 감정 변화를 포착하여 분노, 사과, 흥분 등의 감정을 자동으로 인식하고 표현할 수 있습니다. 🧩 문맥적 기억: 톤, 속도, 논리의 일관성을 유지하고 실제 사람처럼 유창하게 말합니다. 🔧 크기가 작고 속도가 빠르며 애플리케이션에 내장하는 데 적합합니다(예: AI 어시스턴트가 직접 "말할" 수 있도록 허용)
영어 버전
평점이 꽤 높습니다.
중국어와 영어 혼합 프레젠테이션 xiaohu.ai/c/a066c4/vibev…면 httpmicrosoft.github.io/VibeVoice/하세요. 프로젝트 주소: https://t.co/3DQV0xwNJO
