메이투안은 방금 저지연성, 멀티모달 대규모 모델인 LongCat-Flash-Omni를 오픈 소스로 공개했습니다. 이 모델은 128K 컨텍스트를 제공하고 8분 이상의 실시간 오디오 및 비디오 상호작용을 지원합니다. 밀리초 수준의 지연 시간으로 듣고, 보고, 말할 수 있으며, 실시간 음성 비서, 라이브 스트리밍 채팅 봇, 오디오 및 비디오 품질 검사 시스템 등을 구축하는 데 사용할 수 있습니다. OmniBench에서는 Gemini-2.5-Flash와 Qwen3-Omni를 능가하고 Gemini 2.5 Pro와 비슷합니다. MMBEnch에서는 Gemini, GPT-4o, Qwen-VL과 비슷합니다. MVBench에서는 Gemini 2.5 Pro와 GPT-4o를 능가합니다. 일반적인 지식은 DeepSeek V3.1 및 Qwen3와 비슷합니다. LongCat-Flash ScMoE 아키텍처를 기반으로 총 매개변수 560B, 활성 매개변수 27B가 있습니다. #대형 모델# LongCatFlashOmni
깃허브: htgithub.com/meituan-longca…HF: huggingface.co/meituan-longca…
