A Meituan acaba de disponibilizar em código aberto um modelo multimodal de baixa latência e em larga escala: LongCat-Flash-Omni, que apresenta 128 mil contextos e suporta mais de 8 minutos de interação de áudio e vídeo em tempo real. Ele consegue ouvir, ver e falar, com latência em nível de milissegundos, e pode ser usado para criar assistentes de voz em tempo real, chatbots para transmissões ao vivo, sistemas de inspeção de qualidade de áudio e vídeo, etc. No OmniBench, supera o Gemini-2.5-Flash e o Qwen3-Omni, e se aproxima do Gemini 2.5 Pro; no MMBEnch, é comparável ao Gemini, GPT-4o e Qwen-VL; no MVBench, supera o Gemini 2.5 Pro e o GPT-4o. O conhecimento geral é semelhante ao do DeepSeek V3.1 e do Qwen3. Parâmetros totais: 560B, 27B ativos, com base na sua arquitetura LongCat-Flash ScMoE. #Modelo Grande# LongCatFlashOmni
github:github.com/meituan-longca… HF:huggingface.co/meituan-longca…
