X (Twitter)

Meituan acaba de liberar como código abierto un modelo multimodal de gran escala y baja latencia: LongCat-Flash-Omni, que cuenta con un contexto de 128K y admite más de 8 minutos de interacción de audio y vídeo en tiempo real. Puede oír, ver y hablar con una latencia del orden de milisegundos, y puede utilizarse para crear asistentes de voz en tiempo real, chatbots para transmisiones en directo, sistemas de inspección de calidad de audio y vídeo, etc. En OmniBench, supera a Gemini-2.5-Flash y Qwen3-Omni, y está cerca de Gemini 2.5 Pro; en MMBEnch, es comparable a Gemini, GPT-4o y Qwen-VL; en MVBench, supera a Gemini 2.5 Pro y GPT-4o. Los conocimientos generales son similares a los de DeepSeek V3.1 y Qwen3. Parámetros totales 560B, 27B activos, basados en su arquitectura LongCat-Flash ScMoE. #Modelo grande# LongCatFlashOmni

github：github.com/meituan-longca… HF：huggingface.co/meituan-longca…

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo