AIGCLINK (@aigclink): 智源人工智能研究院刚刚放出了最新多模态世界模型：Emu3.5，通过预测下一个token的方式来理解和生成文本、图像、视频，图像生成/编辑媲…

베이징 인공지능 아카데미(BAAI)가 최신 멀티모달 월드 모델인 Emu3.5를 출시했습니다. 이 모델은 다음 토큰을 예측하여 텍스트, 이미지, 비디오를 이해하고 생성하며, 이미지 생성/편집 기능은 나노 바나나(Nano Banana)에 필적합니다. 사건의 순서와 인과 관계를 이해하고, 다음에 무슨 일이 일어날지 예측하는 능력을 통해 AI는 단순한 콘텐츠 생성 도구에서 일관된 생성, 작업 계획, 물리적 세계와의 상호 작용이 가능한 범용 지능형 에이전트로 변모했습니다. 10TB의 데이터에 대한 학습을 DiDA 기술로 가속화한 결과 추론 속도가 20배 향상되었습니다. 한 번의 클릭으로 튜토리얼, 만화, 초고화질 동영상을 생성할 수 있으며, 로봇/AR을 위한 단계별 애니메이션도 생성할 수 있습니다. 예를 들어, 중국어와 영어로 된 설명을 바탕으로 사실적인 이미지를 생성할 수 있습니다. 로봇은 물리적 세계의 작업을 이해하고 실행할 수 있습니다. 사람이 옷을 개는 과정을 관찰하여, 로봇이 이해하고 실행할 수 있는 일련의 구체적인 단계로 작업을 세분화하고, 이를 통해 로봇이 물리적 작업을 완료하도록 안내합니다. #AI 세계 모델 #에뮤

깃허브: https://t.co/Qp9ik87UTo

AIGCLINK(@aigclink)의 스레드

작성자 정보

스레드 내용