A Meta disponibilizou como código aberto um sistema de reconhecimento automático de fala (ASR) que suporta 1600 idiomas: o Omnilingual ASR, que pode ser expandido para novos idiomas sem nenhuma amostra, utilizando apenas algumas amostras de pares de fala e texto. Oferece três arquiteturas: SSL, CTC e LLM, com modelos que variam de 300M a 7B para cada arquitetura. CTC: Alta velocidade, até 96 vezes mais rápido que em tempo real, adequado para transcrição em lote. LLM: Capaz de reconhecimento zero-shot, alta precisão, com uma taxa de erro de linguagem inferior a 10% (78%). Modelos auto-supervisionados SSL: usados para pré-treinamento ou extração de características. #ASR #MetaASROmnilinguístico
github:github.com/facebookresear…