アリババが新しいオープンソースの音声インタラクションモデル「Fun-Audio-Chat」をリリース 超低遅延、共感性、口調や感情を理解することができます。 音声で話しかけると、リアルタイムで理解、思考し、答えることができ、自然で流暢な音声で返答します。 複数のベンチマーク テストでトップに立っており、GPT-Audio や Gemini-2.5-Pro に匹敵するパフォーマンスを発揮します。 できる: 音声の質問に答えます(例:「この音声メッセージを要約してください」)。 音声内容の理解(感情、音色、コマンドの認識など)。 音声でタスクを実行します(「音楽を再生して」や「電話をかけて」など)。 音声生成スピーチ(あなたのスピーチに直接応答します)。 声の感情(幸福感、優しさ、真剣さなど)をシミュレートします。
主な機能↓ エンドツーエンドの S2S アーキテクチャ: 低レイテンシ、高効率、デュアル解像度設計: GPU コストを約 50% 削減します。 音声機能呼び出xiaohu.ai/c/a066c4/fun-a…。 詳しい紹funaudiollm.github.io/funaudiochat/sH プロジェクトgithub.com/FunAudioLLM/Fu…rUT4V GitHub: https://t.co/8l13hc19zB
