X (Twitter)

Alibaba lance un nouveau modèle d'interaction vocale open source : Fun-Audio-Chat Latence ultra-faible, empathique et capable de comprendre le ton et les émotions. Vous pouvez lui parler à la voix, et il peut comprendre, réfléchir et vous répondre en temps réel, avec une voix naturelle et fluide. Il arrive en tête dans de nombreux tests de référence et ses performances sont comparables à celles de GPT-Audio et Gemini-2.5-Pro. Ça peut: Répondre aux questions vocales (par exemple : « Résumez-moi ce message vocal »). Comprendre le contenu de la parole (comme la reconnaissance des émotions, du timbre et des ordres). Effectuer des tâches par la voix (comme « Joue de la musique pour moi » ou « Passe un appel téléphonique »). Synthèse vocale (elle répond directement à votre voix). Simule les émotions vocales (telles que la joie, la douceur et le sérieux).

Fonctions principales ↓ Architecture S2S de bout en bout : latence réduite, efxiaohu.ai/c/a066c4/fun-a…ption àfunaudiollm.github.io/funaudiochat/duction dgithub.com/FunAudioLLM/Fu… 50 %. Prend en charge les appels vocaux : il suffit de parler pour accomplir les tâches. Présentation détaillée : https://t.co/hkjrAbTXsH Projet et démo : https://t.co/tkIZhrUT4V GitHub : https://t.co/8l13hc19zB

Fonctions principales ↓

Architecture S2S de bout en bout : latence réduite, efficacité accrue ; conception à double ré

Fil de 小互 (@imxiaohu)

Informations sur l'auteur

Contenu du fil