Meta는 1600개 언어를 지원하는 ASR을 오픈 소스로 공개했습니다. Omnilingual ASR은 몇 개의 음성-텍스트 페어링 샘플만 사용하여 샘플 없이도 새로운 언어로 확장할 수 있습니다. SSL, CTC, LLM의 세 가지 아키텍처를 제공하며, 각 아키텍처의 모델 범위는 300M에서 7B까지입니다. CTC: 속도가 빨라 실시간보다 최대 96배 빠르며 일괄 처리에 적합합니다. LLM: 제로샷 인식이 가능하고 정확도가 높으며 언어 오류율이 10%(78%) 미만입니다. SSL 자체 감독 모델: 사전 학습 또는 기능 추출에 사용됨 #ASR #메타옴니링구얼ASR
깃허브: https://t.co/ivCIsVLWQH