最近、TEN に複数人物認識機能を追加しました。 この機能には、「ダイアライゼーション」という特別な名前があります。 会話の中でさまざまな声を認識できます。 それぞれのサウンドには、「スピーカー 0」または「スピーカー 1」というラベルが付けられました。 このシナリオは、会話型 AI にとって不可欠なものと言えます。 この機能を備えたASR/STTツールは少ないと思っていました。ちょっと調べてみたところ、この機能をサポートし、オープンソースで無料のASR/STTツールが他にもあることがわかりました。これは素晴らしいですね。 コメント欄に住所を記入してください👇
楽しいASR github.com/modelscope/Fun… ウィスパーダイアライゼーション https://t.co/oxcc1GkexH