X (Twitter)

Predecir el próximo segundo en el mundo real La Academia de Inteligencia Artificial de Beijing (BAAI) ha lanzado un nuevo modelo mundial multimodal: Emu3.5. El principal problema con muchos modelos tradicionales de generación de imágenes es: "No entienden" las leyes que rigen el funcionamiento del mundo y no pueden comprender las reglas físicas y las relaciones causales del mundo real. Emu3.5 se basa en la generación de imágenes tradicional, lo que permite además que la IA: Comprender las relaciones espaciales en el mundo real, razonar sobre los patrones de cambio de los objetos a lo largo del tiempo y predecir cómo será el mundo "el próximo segundo". A diferencia de los modelos anteriores que diseñaron modelos separados para imágenes, texto y vídeo, Emu3.5 los unifica todos en un solo sistema: En primer lugar, se unificó en un token la información multimodal, que incluía imágenes, texto y vídeo; El modelo aprende las relaciones entre diferentes modalidades al "predecir el próximo token"; La tarea se unifica como NSP: predecir el próximo estado mundial (incluidos los aspectos visuales y lingüísticos). Emu3.5 ya no se centra únicamente en la "lógica entre textos". Más bien, le enseña al modelo "cómo cambia el mundo". Esto significa que ya no hace distinciones: Esta es una imagen, esta es una frase, este es un fotograma de un vídeo. A sus ojos, todos son el mismo conjunto de "bloques para construir el mundo". Entonces el modelo sólo hace una cosa: Predecir cuál será el próximo bloque. Si el siguiente bloque es una línea de texto, completa el texto; si es el siguiente cuadro, completa la acción; si es el siguiente resultado, deduce los cambios en el mundo. entonces: Predecir el próximo token = predecir cómo será el mundo en el próximo segundo.

Los datos de entrenamiento para Emu3.5 contienen aproximadamente 790 años de duración de video. El vídeo es el registro digital más cercano a la realidad: transporta información sobre el tiempo, el espacio, la ubicación física y la intención. Los vídeos de capacitación incluyen: Tiempo Espacio Física Causalidad Intención Éstos son los cinco elementos esenciales del mundo. Aprendiendo experiencias del mundo real

Admite la generación de pantallas interactivas en 3D. Un poco similar a World Labs de Fei-Fei Li, puede generar un mundo 3D realista e interactivo.

Puede comprender y generar "imágenes de pasos de enseñanza" completas. Por ejemplo, enseñarte: ¿Cómo cocinar albóndigas de camarones, apio y cerdo? Va a: El proceso de desmontaje automático incluye diagramas que muestran cómo completar cada paso.

Las capacidades más importantes e innovadoras de Emu3.5 son: Puede predecir el próximo estado del mundo basándose en la escena actual, es decir, "lo que sucederá en el próximo segundo". Por ejemplo: Sube una foto de un niño sosteniendo un globo y luego dile al modelo: El globo del niño voló accidentalmente. Se generó esta imagen ↓

Predice cómo se verá este árbol cuando esté lleno de fruta en el otoño y cómo se verá la fruta cuando esté madura. Por supuesto, modelos como GPT y Gemini también pueden lograr esto, pero los principios básicos son ligeramente diferentes. GPT/Géminis significa "especulación del conocimiento en la lógica del lenguaje"; Emu3.5 significa "Predicción de dinámica física".

La capacidad de generación de imágenes también es decente.

Capacidades de edición de imágenes

Introducmp.weixin.qq.com/s/4Hzrd22UYmdX…ón: httzh.emu.world/pages/web/land…Sitio wzh.emu.world/pages/web/loginhttpsarxiv.org/pdf/2510.26583velo online: https://t.co/vp7ZPvZmbQ Documento: https://t.co/uRT03e8NZg

Introducción detallada y revisión: https://t.co/jOEHirQTiu

Sitio web oficial del modelo: https://t.co/aXMSMiSYeb

Vív

Hilo de 小互 (@imxiaohu)

Información del autor

Contenido del hilo