X (Twitter)

Alibaba lanza un nuevo modelo de interacción de voz de código abierto: Fun-Audio-Chat Latencia ultrabaja, empático y capaz de comprender el tono y la emoción. Puedes hablarle mediante voz y él podrá entenderte, pensar y responderte en tiempo real, respondiendo con una voz natural y fluida. Es líder en múltiples pruebas comparativas y tiene un rendimiento comparable al de GPT-Audio y Gemini-2.5-Pro. Puede: Responda preguntas de voz (por ejemplo, "Resúmeme este mensaje de voz"). Comprender el contenido del habla (como reconocer emociones, timbre y comandos). Realizar tareas mediante la voz (como "Reproducir música para mí" o "Hacer una llamada telefónica"). Discurso generado por voz (responde directamente a tu discurso). Simula emociones vocales (como felicidad, gentileza y seriedad).

Funciones principales ↓ Arquitectura S2S de extremo a extremo: menor latencia,xiaohu.ai/c/a066c4/fun-a…ño de dfunaudiollm.github.io/funaudiochat/ el costogithub.com/FunAudioLLM/Fu…amente un 50%. Admite llamadas a funciones de voz: simplemente hable para completar tareas. Introducción detallada: https://t.co/hkjrAbTXsH Proyecto y demostración: https://t.co/tkIZhrUT4V GitHub: https://t.co/8l13hc19zB

Funciones principales ↓

Arquitectura S2S de extremo a extremo: menor latencia, mayor eficiencia; diseño de doble resol

Hilo de 小互 (@imxiaohu)

Información del autor

Contenido del hilo