Meituan vient de publier en open source un modèle multimodal à grande échelle et à faible latence : LongCat-Flash-Omni, qui offre 128 000 contextes et prend en charge plus de 8 minutes d’interaction audio et vidéo en temps réel. Il peut entendre, voir et parler, avec une latence de l'ordre de la milliseconde, et peut être utilisé pour créer des assistants vocaux en temps réel, des chatbots de diffusion en direct, des systèmes d'inspection de la qualité audio et vidéo, etc. Sur OmniBench, il surpasse Gemini-2.5-Flash et Qwen3-Omni, et se rapproche de Gemini 2.5 Pro ; sur MMBEnch, il est comparable à Gemini, GPT-4o et Qwen-VL ; sur MVBench, il surpasse Gemini 2.5 Pro et GPT-4o. Les connaissances générales sont similaires à celles de DeepSeek V3.1 et Qwen3. Nombre total de paramètres : 560 octets, dont 27 octets actifs, basé sur son architecture LongCat-Flash ScMoE. #Grand modèle# LongCatFlashOmni
github:github.com/meituan-longca… HF:huggingface.co/meituan-longca…
