X (Twitter)

Prever o próximo segundo no mundo real A Academia de Inteligência Artificial de Pequim (BAAI) lançou um modelo de mundo multimodal totalmente novo: o Emu3.5. O principal problema com muitos modelos tradicionais de geração de imagens é: Eles "não entendem" as leis que regem o funcionamento do mundo e não conseguem compreender as regras físicas e as relações causais do mundo real. O Emu3.5 aprimora a geração de imagens tradicional, permitindo que a IA: Compreender as relações espaciais no mundo real, raciocinar sobre os padrões de mudança dos objetos ao longo do tempo e prever como será o mundo "no próximo segundo". Ao contrário dos modelos anteriores que projetavam sistemas separados para imagens, texto e vídeo, o Emu3.5 unifica todos eles em um único sistema: Primeiramente, informações multimodais, incluindo imagens, texto e vídeo, foram unificadas em um token; O modelo aprende as relações entre diferentes modalidades "prevendo o próximo token"; A tarefa é unificada como NSP: prever o próximo estado do mundo (incluindo aspectos visuais e linguísticos). O Emu3.5 não se concentra mais exclusivamente na "lógica entre textos". Em vez disso, ensina ao modelo "como o mundo muda". Isso significa que não faz mais distinções: Isto é uma imagem, isto é uma frase, isto é um fotograma de um vídeo. Aos seus olhos, são todos o mesmo conjunto de "blocos de construção do mundo". Então o modelo faz apenas uma coisa: Preveja qual será o próximo bloco. Se o próximo bloco for uma linha de texto, ele completa o texto; se for o próximo quadro, ele completa a ação; se for o próximo resultado, ele deduz as mudanças no mundo. então: Prever o próximo token é o mesmo que prever como será o mundo no próximo segundo.

Os dados de treinamento para o Emu3.5 contêm aproximadamente 790 anos de duração de vídeo. O vídeo é o registro digital mais próximo da realidade: ele carrega informações sobre tempo, espaço, localização física e intenção. Os vídeos de treinamento incluem: Tempo Espaço Física Causalidade Intenção Esses são os cinco elementos essenciais do mundo. Aprendendo experiências do mundo real

Permite gerar telas interativas em 3D. De certa forma semelhante ao World Labs de Fei-Fei Li, ele consegue gerar um mundo 3D realista e interativo.

Ele consegue compreender e gerar "imagens passo a passo" completas. Por exemplo, ensinando você: Como preparar bolinhos de camarão, aipo e carne de porco? Ele vai: O processo de desmontagem automática inclui diagramas que mostram como concluir cada etapa.

As principais e mais inovadoras funcionalidades do Emu3.5 são: Ele consegue prever o próximo estado do mundo com base no cenário atual, ou seja, "o que acontecerá no próximo segundo". Por exemplo: Envie uma foto de uma criança segurando um balão e diga ao modelo: O balão da criança voou para longe sem querer. Isso gerou esta imagem ↓

Preveja como ficará esta árvore quando estiver carregada de frutos no outono e como ficarão os frutos quando estiverem maduros. É claro que modelos como GPT e Gemini também podem alcançar esse objetivo, mas os princípios básicos são ligeiramente diferentes. GPT/Gemini significa "especulação de conhecimento em lógica da linguagem"; Emu3.5 significa "Previsão da Dinâmica Física".

A capacidade de geração de imagens também é razoável.

recursos de edição de imagens

Introduçmp.weixin.qq.com/s/4Hzrd22UYmdX…: httpszh.emu.world/pages/web/land…te oficzh.emu.world/pages/web/logint.co/arxiv.org/pdf/2510.26583e online: https://t.co/vp7ZPvZmbQ Artigo: https://t.co/uRT03e8NZg

Introdução e análise detalhadas: https://t.co/jOEHirQTiu

Site oficial do modelo: https://t.co/aXMSMiSYeb

Experimente

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread