Nous avons récemment ajouté une fonctionnalité de reconnaissance multi-personnes à TEN. Cette fonctionnalité porte un nom spécifique : la diarisation. Il peut reconnaître différentes voix dans une conversation. Chaque son était étiqueté « haut-parleur 0 » ou « haut-parleur 1 ». Ce scénario peut être considéré comme essentiel pour l'IA conversationnelle. J'ai toujours cru qu'il n'existait pas beaucoup d'outils de reconnaissance vocale automatique (ASR/STT) avec cette fonctionnalité. Après une rapide recherche, j'ai découvert qu'il existe d'autres outils ASR/STT qui la prennent en charge, sont libres de droits et gratuits, ce qui est formidable. Adresse dans la section commentaires 👇
ASR amusgithub.com/modelscope/Fun…LGyY9 Diarisation chgithub.com/MahmoudAshraf9…xcc1GkexH