X (Twitter)

알리바바가 새로운 오픈소스 음성 상호작용 모델인 Fun-Audio-Chat을 출시했습니다. 초저지연, 공감 능력, 그리고 어조와 감정을 이해하는 능력. 음성으로 대화하면 기기가 실시간으로 이해하고 생각하며 자연스럽고 유창한 목소리로 답변합니다. 이 제품은 여러 벤치마크 테스트에서 선두를 차지했으며 GPT-Audio 및 Gemini-2.5-Pro와 유사한 성능을 보여줍니다. 다음과 같은 기능을 할 수 있습니다: 음성 질문에 답변합니다(예: "이 음성 메시지를 요약해 주세요"). 음성 내용 이해 (예: 감정, 음색, 명령 인식). 음성으로 작업을 수행합니다(예: "음악을 틀어줘" 또는 "전화를 걸어줘"). 음성 생성 기능 (사용자의 음성에 직접 반응합니다). 행복, 부드러움, 진지함과 같은 다양한 감정 표현을 음성으로 흉내냅니다.

주요 기능 ↓ 엔드투엔드 S2S 아키텍처: 낮은 지연 시간, 높은 효율성; 듀얼 해상도 설계: GPU 비용을 약 50% 절감합니다. 음성 xiaohu.ai/c/a066c4/fun-a…업을 완료할 funaudiollm.github.io/funaudiochat/://t.co/hgithub.com/FunAudioLLM/Fu…ttps://t.co/tkIZhrUT4V GitHub: https://t.co/8l13hc19zB

주요 기능 ↓

엔드투엔드 S2S 아키텍처: 낮은 지연 시간, 높은 효율성; 듀얼 해상도 설계: GPU 비용을 약 50% 절감합니다.
음성 기능 호출을 지원합니다. 말하기만 하면 작업을 완료할 수 있습니다.

小互(@imxiaohu)의 스레드

작성자 정보

스레드 내용