현실 세계에서 다음 순간을 예측하다 베이징 인공지능 아카데미(BAAI)는 완전히 새로운 멀티모달 세계 모델인 Emu3.5를 출시했습니다. 많은 기존 이미지 생성 모델의 주요 문제점은 다음과 같습니다. 그들은 세상이 돌아가는 원리를 "이해하지 못하고", 현실 세계의 물리적 규칙과 인과 관계를 이해할 수 없습니다. Emu3.5는 기존 이미지 생성 기능을 기반으로 AI가 다음과 같은 작업을 수행할 수 있도록 지원합니다. 실제 세계의 공간적 관계를 이해하고, 시간에 따른 물체의 변화 패턴을 추론하고, "다음 순간" 세계가 어떨지 예측합니다. 이미지, 텍스트, 비디오에 대해 별도의 모델을 설계했던 이전 모델과 달리 Emu3.5는 이 모든 것을 단일 시스템으로 통합했습니다. 첫째, 이미지, 텍스트, 비디오 등 멀티모달 정보를 토큰으로 통합했습니다. 이 모델은 "다음 토큰을 예측"하여 다양한 모달리티 간의 관계를 학습합니다. 이 작업은 NSP로 통합됩니다. 다음 세계 상태를 예측합니다(시각적, 언어적 측면 포함). Emu3.5는 더 이상 "텍스트 간의 논리"에만 초점을 맞추지 않습니다. 그 대신, 이 모델은 "세상이 어떻게 변하는지"를 가르칩니다. 이는 더 이상 구별을 하지 않는다는 것을 의미합니다. 이것은 이미지이고, 이것은 문장이고, 이것은 비디오의 프레임입니다. 이 관점에서 보면, 그것들은 모두 동일한 "세계 구성 요소"의 집합입니다. 그러면 모델은 한 가지 일만 수행합니다. 다음 블록이 무엇일지 예측해 보세요. 다음 블록이 텍스트 줄이면 텍스트가 완성되고, 다음 프레임이면 액션이 완성되고, 다음 결과이면 세상의 변화를 추론합니다. 그래서: 다음 토큰을 예측한다는 것은 다음 순간의 세상이 어떻게 될지 예측한다는 것을 의미합니다.
Emu3.5의 훈련 데이터에는 약 790년 분량의 비디오가 포함되어 있습니다. 비디오는 현실에 가장 가까운 디지털 기록입니다. 시간, 공간, 물리적 위치, 의도에 대한 정보를 담고 있습니다. 교육 비디오에는 다음이 포함됩니다. 시간 공간 물리학 인과관계 의지 이것들은 세상의 5가지 필수 요소입니다. 실제 경험으로부터 배우기
3D 대화형 화면 생성을 지원합니다. 페이페이 리의 월드 랩과 비슷하게, 현실적이고 상호작용적인 3D 세계를 만들어낼 수 있습니다.
완전한 "교수 단계 이미지"를 이해하고 생성할 수 있습니다. 예를 들어, 다음을 가르쳐 드립니다. 새우, 셀러리, 돼지고기 만두를 요리하는 방법은? 그것은: 자동 분해 과정에는 각 단계를 완료하는 방법을 보여주는 다이어그램이 포함되어 있습니다.
Emu3.5의 가장 핵심적이고 혁신적인 기능은 다음과 같습니다. 현재 상황을 바탕으로 세계의 다음 상태를 예측할 수 있습니다. 즉, "다음 순간에 무슨 일이 일어날 것인가"를 예측할 수 있습니다. 예를 들어: 풍선을 들고 있는 아이의 사진을 업로드한 다음, 모델에게 "아이의 풍선이 실수로 날아갔어요"라고 알려주세요. 이 이미지가 생성되었습니다 ↓
가을에 이 나무에 과일이 가득 열릴 때 이 나무가 어떻게 보일지, 그리고 과일이 익었을 때 이 나무가 어떻게 보일지 예측해 보세요. 물론 GPT나 Gemini와 같은 모델도 이를 달성할 수 있지만, 핵심 원칙은 약간 다릅니다. GPT/Gemini는 "언어 논리에서의 지식 추측"을 의미합니다. Emu3.5는 "물리적 역학 예측"을 의미합니다.
이미지 생성 기능도 괜찮습니다.
이미지 편집 기능
자세한 소개 및mp.weixin.qq.com/s/4Hzrd22UYmdX…rQTiu zh.emu.world/pages/web/land…co/aXMSzh.emu.world/pages/web/loginhttpsarxiv.org/pdf/2510.26583: https://t.co/uRT03e8NZg











