강력한 소식: 얀 르쿤, 페이페이 리, 사이닝 셰가 공동으로 최신 멀티모달 모델인 Cambrian-S를 출시했습니다. 이를 통해 멀티모달 지능이 공간적 초지각 능력을 보유할 수 있게 되었습니다. 다중 모드 대형 모델은 이미지 및 언어 작업에서는 뛰어난 성능을 보이지만, 영상 이해, 특히 공간 인식에는 여전히 상당한 단점이 있습니다. 이 모델은 이미지의 일부만 이해할 수 있으며, "공간 이해" 및 "무슨 일이 일어났는지 기억"하는 능력과는 거리가 멉니다. 진정한 다중 모드 지능은 이미지 해석과 같은 의미적 인식에만 국한되어서는 안 됩니다. 공간적 초감각적 인식 능력도 가져야 합니다. 이를 위해 그들은 새로운 목표, 새로운 벤치마크, 새로운 모델, 새로운 학습 패러다임을 공동으로 제안했습니다. 1. 새로운 벤치마크: VSI-SUPER, 두 가지 작업 포함 VSR은 모델이 임의의 길이의 비디오에서 비정상적인 객체의 공간적 위치와 발생 순서를 기억하고 회수할 것을 요구합니다. VSC는 모델이 여러 방과 관점에서 대상 객체를 지속적으로 계산하도록 요구하며 스트리밍 질의응답을 지원합니다. 이러한 두 가지 작업 모두 단순히 컨텍스트 창을 확장하거나 무차별 대입 샘플링을 통해 해결할 수 없습니다. 모델에는 진정한 공간적 이해와 메모리 메커니즘이 필요합니다. 2. 캄브리아기-S VSI-Bench에서는 67.5%를 기록했는데, 이는 Gemini-2.5-Pro의 51.5%에 비해 높은 수치입니다. 다양한 이미지/비디오 벤치마크에서 뛰어난 성능 발휘 그러나 VSI-SUPER에서의 성능은 여전히 좋지 않아 데이터 확장만으로는 공간 인식의 병목 현상을 극복할 수 없음을 보여줍니다. 3. 새로운 학습 패러다임: 예측 감지 목표는 모델이 단순히 "볼" 뿐만 아니라, 주로 예측 오류를 통해 기억과 사건에 대한 이해를 촉진함으로써 인지된 경험을 "예측"하고 "정리"할 수 있도록 하는 것입니다. 실험 결과, 이 방법은 VSI-SUPER에서 Gemini-2.5와 같은 상용 모델보다 상당히 우수한 성능을 보였으며, 매우 긴 영상(120분)에서도 안정적인 성능을 유지했습니다. #캄브리아기 #공간지능
깃허브: https://t.co/8frMV9sbsp
