Prédire la seconde suivante dans le monde réel L'Académie d'intelligence artificielle de Pékin (BAAI) a lancé un tout nouveau modèle de monde multimodal : Emu3.5. Le principal problème de nombreux modèles traditionnels de génération d'images est le suivant : Ils « ne comprennent pas » les lois qui régissent le fonctionnement du monde et ne peuvent pas appréhender les règles physiques et les relations de cause à effet du monde réel. Emu 3.5 s'appuie sur la génération d'images traditionnelle, permettant ainsi à l'IA de : Comprendre les relations spatiales dans le monde réel, raisonner sur les schémas d'évolution des objets au fil du temps et prédire à quoi ressemblera le monde « la seconde suivante ». Contrairement aux modèles précédents qui concevaient des modèles distincts pour les images, le texte et la vidéo, Emu3.5 les unifie tous dans un seul système : Premièrement, les informations multimodales, y compris les images, le texte et la vidéo, ont été unifiées en un jeton ; Le modèle apprend les relations entre les différentes modalités en « prédisant le prochain jeton » ; La tâche est unifiée sous l'appellation NSP : prédire le prochain état du monde (y compris les aspects visuels et linguistiques). Emu3.5 ne se concentre plus uniquement sur la « logique entre les textes ». Au contraire, elle enseigne au modèle « comment le monde change ». Cela signifie qu'il ne fait plus de distinctions : Ceci est une image, ceci est une phrase, ceci est une image extraite d'une vidéo. À ses yeux, il s'agit du même ensemble de « briques élémentaires du monde ». Le modèle ne fait alors qu'une seule chose : Prédisez quel sera le prochain bloc. Si le bloc suivant est une ligne de texte, il complète le texte ; s'il s'agit de l'image suivante, il complète l'action ; s'il s'agit du résultat suivant, il déduit les changements survenus dans le monde. donc: Prédire le prochain jeton = prédire à quoi ressemblera le monde dans la seconde qui suit.
Les données d'entraînement pour Emu3.5 contiennent environ 790 ans de durée vidéo. La vidéo est l'enregistrement numérique le plus proche de la réalité : elle véhicule des informations sur le temps, l'espace, le lieu physique et l'intention. Les vidéos de formation comprennent : Temps Espace Physique Causalité Intention Voici les cinq éléments essentiels du monde. Apprendre des expériences concrètes
Il permet de générer des écrans interactifs 3D. Un peu comme World Labs de Fei-Fei Li, il peut générer un monde 3D réaliste et interactif.
Il peut comprendre et générer des « images complètes des étapes d'enseignement ». Par exemple, vous apprendre : Comment cuisiner des raviolis aux crevettes, au céleri et au porc ? Ce sera: Le processus de démontage automatique comprend des schémas vous montrant comment effectuer chaque étape.
Les fonctionnalités les plus essentielles et innovantes d'Emu3.5 sont : Il peut prédire l'état futur du monde en fonction de la scène actuelle, c'est-à-dire « ce qui va se passer dans la seconde qui suit ». Par exemple: Téléchargez une photo d'un enfant tenant un ballon, puis dites au mannequin : Le ballon de l'enfant s'est envolé accidentellement. L'image suivante a été générée ↓
Prédisez à quoi ressemblera cet arbre lorsqu'il sera chargé de fruits en automne, et à quoi ressembleront les fruits lorsqu'ils seront mûrs. Bien sûr, des modèles comme GPT et Gemini peuvent également y parvenir, mais leurs principes fondamentaux sont légèrement différents. GPT / Gemini signifie « spéculation de connaissances dans la logique du langage » ; Emu3.5 signifie « Prédiction de la dynamique physique ».
La capacité de génération d'images est également correcte.
fonctionnalités de retouche d'images
Présentamp.weixin.qq.com/s/4Hzrd22UYmdX…ées : hzh.emu.world/pages/web/land… Site zh.emu.world/pages/web/logintps:/arxiv.org/pdf/2510.26583uvrez-le en ligne : https://t.co/vp7ZPvZmbQ Article : https://t.co/uRT03e8NZg











