X (Twitter)

Alibaba lança um novo modelo de interação por voz de código aberto: Fun-Audio-Chat Latência ultrabaixa, empático e capaz de compreender tom de voz e emoção. Você pode falar com ele por voz, e ele consegue entender, pensar e responder em tempo real, com uma voz natural e fluente. Ele se destaca em diversos testes de benchmark e apresenta desempenho comparável ao GPT-Audio e ao Gemini-2.5-Pro. Pode: Responder a perguntas por voz (por exemplo, "Resuma esta mensagem de voz para mim"). Compreender o conteúdo da fala (como reconhecer emoções, timbre e comandos). Executar tarefas por voz (como "Tocar música para mim" ou "Fazer uma chamada telefônica"). Fala gerada por voz (responde diretamente à sua fala). Simula emoções vocais (como felicidade, gentileza e seriedade).

Funções principais ↓ Arquitetura S2S de ponta a ponta: menor latência, maior exiaohu.ai/c/a066c4/fun-a…soluçãofunaudiollm.github.io/funaudiochat/a GPU em github.com/FunAudioLLM/Fu…ompatível com chamadas por voz: basta falar para concluir tarefas. Apresentação detalhada: https://t.co/hkjrAbTXsH Projeto e demonstração: https://t.co/tkIZhrUT4V GitHub: https://t.co/8l13hc19zB

Funções principais ↓

Arquitetura S2S de ponta a ponta: menor latência, maior eficiência; design de resolução dupla: re

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread