Recentemente, adicionamos um recurso de reconhecimento de múltiplas pessoas ao TEN. Essa funcionalidade tem um nome específico: Diarização. Ele consegue reconhecer diferentes vozes em uma conversa. Cada som foi identificado como "alto-falante 0" ou "alto-falante 1". Este cenário pode ser considerado essencial para a IA conversacional. Sempre achei que não existiam muitas ferramentas de reconhecimento automático de fala/conversão de voz com esse recurso. Fiz uma busca rápida e descobri que existem outras ferramentas de reconhecimento automático de fala/conversão de voz que oferecem esse recurso, são de código aberto e gratuitas, o que é ótimo. Endereço na seção de comentários 👇
Diversãogithub.com/modelscope/Fun…FLGyY9 Diarização degithub.com/MahmoudAshraf9…o/oxcc1GkexH