최근 TEN에 다중 사용자 인식 기능이 추가되었습니다. 이 기능에는 Diarization이라는 특정 이름이 있습니다. 대화 속에서 다양한 목소리를 인식할 수 있습니다. 각 소리에는 "스피커 0" 또는 "스피커 1"이라는 라벨이 붙었습니다. 이 시나리오는 대화형 AI에 필수적인 것으로 간주될 수 있습니다. 이 기능을 지원하는 ASR/STT 도구가 많지 않다고 생각했는데, 방금 간단히 검색해 보니 이 기능을 지원하는 오픈 소스 무료 ASR/STT 도구가 있더라고요. 정말 좋네요. 댓글 섹션에 주소를 적어주세요 👇
재미있는 ASRgithub.com/modelscope/Fun…Y9 속삭임 일기 https://t.co/oxcc1GkexH