Meta は、1600 の言語をサポートする ASR、Omnilingual ASR をオープンソース化しました。これは、わずか数個の音声とテキストのペアリング サンプルを使用して、サンプルなしで新しい言語に拡張できます。 SSL、CTC、LLM の 3 つのアーキテクチャが提供されており、各アーキテクチャごとに 300M から 7B までのモデルが用意されています。 CTC: リアルタイムより最大 96 倍高速で、バッチ転写に適しています。 LLM: ゼロショット認識が可能で、言語エラー率が10%未満(78%)と高精度です。 SSL自己教師モデル:事前トレーニングまたは特徴抽出に使用 #ASR #メタオムニリンガルASR
ギットハブ: github.com/facebookresear…