前段時間在TEN 裡面加上了多人識別功能, 這個功能有一個專有名詞叫- Diarization. 它可以辨識對話裡面不同的聲音, 並對每一個聲音打標,「speaker 0」「speaker 1」 這個場景可以說是對話式AI 的必備場景 我一直以為有這種功能的ASR/STT 不多剛剛隨手查了一下,還是有其他ASR/STT 都支援而且開源,免費,不錯 地址放評論區👇
Fun ASR github.com/modelscope/Fun… Whisper Diarization github.com/MahmoudAshraf9…