X (Twitter)

La Academia de Inteligencia Artificial de Beijing (BAAI) acaba de lanzar su último modelo multimodal del mundo: Emu3.5. Este modelo entiende y genera texto, imágenes y vídeos prediciendo el siguiente token, y sus capacidades de generación/edición de imágenes rivalizan con las de Nano Banana. Su capacidad para comprender la secuencia y las relaciones causales de los acontecimientos, y para predecir lo que sucederá a continuación, lo ha transformado de una simple herramienta de generación de contenido en un agente inteligente de propósito general capaz de creación coherente, planificación de tareas e interacción con el mundo físico. El entrenamiento con 10 TB de datos y la aceleración con la tecnología DiDA dieron como resultado un aumento de 20 veces en la velocidad de inferencia. Puede generar tutoriales, cómics y películas de ultra alta definición con un solo clic, y también puede generar animaciones paso a paso para robots/RA. Por ejemplo, puede generar imágenes fotorrealistas a partir de descripciones tanto en chino como en inglés. Es capaz de comprender y ejecutar tareas en el mundo físico. Al observar cómo los humanos doblan la ropa, puede descomponer la tarea en una serie de pasos específicos que el robot puede comprender y ejecutar, guiándolo así para completar la operación física. #Modelo Mundial de IA#Emu

github：github.com/baaivision/Emu…

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo