阿里巴巴發表全新開源語音互動大模型:Fun-Audio-Chat 超低延遲富有同理心、能理解語調和情感 你可以透過語音與它說話,它能即時理解、思考、回答你,並用自然流暢的語音回覆。 在多個基準測試中處於領先地位,性能與GPT-Audio、Gemini-2.5-Pro 相當。 它可以: 回答語音問題(例如「幫我總結這段語音」) 理解語音內容(例如辨識情緒、音色、指令) 按語音執行任務(例如「幫我開啟音樂」、「撥打電話」) 語音生成語音(你說話它直接「開口」回應) 模擬語音情感(如開心、溫柔、嚴肅)
主要功能↓ 端對端S2S 架構:更低的延遲,更高的效率雙解析度設計:將GPU 成本降低約50% 支援語音函數呼叫:只需說話即可完成任務 詳細介紹:httpsxiaohu.ai/c/a066c4/fun-a…示:httpsfunaudiollm.github.io/funaudiochat/tHub:https://t.co/8l13hc19zB
