L'Académie d'intelligence artificielle de Pékin (BAAI) vient de publier son dernier modèle du monde multimodal : Emu3.5. Ce modèle comprend et génère du texte, des images et des vidéos en prédisant le prochain jeton, et ses capacités de génération/édition d'images rivalisent avec celles de Nano Banana. Sa capacité à comprendre la séquence et les relations causales des événements, et à prédire ce qui va se passer ensuite, l'a transformée d'un simple outil de génération de contenu en un agent intelligent polyvalent capable de création cohérente, de planification des tâches et d'interaction avec le monde physique. L'entraînement sur 10 To de données et l'accélération grâce à la technologie DiDA ont permis d'augmenter la vitesse d'inférence de 20 fois. Il peut générer des tutoriels, des bandes dessinées et des films en ultra haute définition en un seul clic, et peut également générer des animations étape par étape pour les robots/la réalité augmentée. Par exemple, il peut générer des images photoréalistes à partir de descriptions en chinois et en anglais. Il peut comprendre et exécuter des tâches dans le monde physique. En observant le processus de pliage du linge par un humain, il peut décomposer cette tâche en une série d'étapes spécifiques que le robot peut comprendre et exécuter, le guidant ainsi dans la réalisation de l'opération physique. #Modèle mondial IA #Ému
github:github.com/baaivision/Emu…