Meta ha liberado el código fuente de un ASR que admite 1600 idiomas: Omnilingual ASR, que puede ampliarse a nuevos idiomas con cero muestras utilizando solo unas pocas muestras de emparejamiento de voz y texto. Ofrece tres arquitecturas: SSL, CTC y LLM, con modelos que van desde 300M hasta 7B para cada arquitectura. CTC: Alta velocidad, hasta 96 veces más rápido que en tiempo real, adecuado para la transcripción por lotes. LLM: Capaz de reconocimiento sin ejemplos, alta precisión, con una tasa de error lingüístico inferior al 10% (78%). Modelos SSL auto-supervisados: se utilizan para el preentrenamiento o la extracción de características. #ASR #ASRMetaOmnilingual
github:github.com/facebookresear…