Meta a mis en open source un système de reconnaissance vocale automatique (ASR) prenant en charge 1600 langues : Omnilingual ASR, qui peut s’étendre à de nouvelles langues sans aucun échantillon en utilisant seulement quelques exemples de paires parole-texte. Elle propose trois architectures : SSL, CTC et LLM, avec des modèles allant de 300M à 7B pour chaque architecture. CTC : Haute vitesse, jusqu’à 96 fois plus rapide que le temps réel, adaptée à la transcription par lots. LLM : Capable de reconnaissance zéro-shot, haute précision, avec un taux d'erreur linguistique inférieur à 10 % (78 %). Modèles auto-supervisés SSL : utilisés pour le pré-entraînement ou l’extraction de caractéristiques #ASR #MetaASRomnilingue
github:github.com/facebookresear…