Meituan は、低遅延でマルチモーダルな大規模モデル LongCat-Flash-Omni をオープンソース化しました。これは 128K のコンテキストを備え、8 分を超えるリアルタイムのオーディオとビデオのインタラクションをサポートします。 ミリ秒レベルの遅延で聞く、見る、話すことができ、リアルタイムの音声アシスタント、ライブストリーミングチャットボット、オーディオおよびビデオ品質検査システムなどを構築するために使用できます。 OmniBenchでは、Gemini-2.5-FlashやQwen3-Omniを上回り、Gemini 2.5 Proに近い値を示します。MMBEnchでは、Gemini、GPT-4o、Qwen-VLに匹敵し、MVBenchでは、Gemini 2.5 ProやGPT-4oを上回ります。 一般的な知識は、DeepSeek V3.1 および Qwen3 と同様です。 合計パラメータ 560B、アクティブ 27B、LongCat-Flash ScMoE アーキテクチャに基づきます。 #大型モデル# LongCatFlashOmni
ギットハブ: github.com/meituan-longca… HFhuggingface.co/meituan-longca…fF
