X (Twitter)

Probé LongCat-Video, el primer modelo de vídeo con IA de Meituan, con 13.600 millones de parámetros. Este modelo puede generar vídeos a partir de texto e imágenes, realizar la continuación de vídeo y producir vídeos muy largos con una resolución de 720p a 30 fps. Incluso utilicé mis contactos para obtener acceso interno al equipo de Meituan LongCat para realizar pruebas. Por ejemplo, en este vídeo, ¿puedes decirme a partir de qué segundo utilicé LongCat-Video para continuar la historia? 👇 (1/6)

La respuesta es que después de 2 segundos todo será contenido generado. LongCat-Video sobresale en la creación de vídeos de viajes en el tiempo en primera persona, e incluso puede generar vídeos de viajes en el tiempo de 5 minutos de una sola vez, con un proceso muy natural y coherente que se asemeja mucho al mundo real. (2/6)

El equipo técnico define LongCat-Video como un modelo del mundo. A diferencia de los modelos de vídeo convencionales que buscan generar vídeos con diversos estilos y escenas, este modelo del mundo pretende comprender la dinámica, las leyes físicas y las relaciones causales del mundo real. NVIDIA hizo hincapié repetidamente en este concepto en la GTC, y entre los casos de aplicación que presentaron se incluyeron la simulación de diferentes patrones de flujo de tráfico, condiciones de la carretera, clima e iluminación para coches inteligentes, el desarrollo de inteligencia espacial para robots y el análisis de vídeo para centros de transporte y multitudes. Por lo tanto, en esta evaluación me centraré en la comprensión del mundo físico y la lógica causal, por ejemplo, en hacer que realice 6 acciones específicas. (3/6)

O echa un vistazo a los vídeos de mukbang realizados por LongCat-Video. A medida que la comida entra en la boca, la porción en el plato disminuye y la persona hace gestos expresivos típicos del mukbang. Sería mejor si la imagen tuviera menos nitidez y la iluminación fuera menos intensa. (4/6)

También puedes ver a personas vendiendo productos desde una perspectiva en primera persona. Presta mucha atención a la forma de la boca del personaje, sus parpadeos y los movimientos de sus manos. Aunque no hay sonido en este momento, en el vídeo de un minuto no se observa ningún movimiento repetitivo de la boca. Además, cuando la mano agita el frasco de perfume, el líquido en su interior se balancea ligeramente. (5/6)

¿Por qué puedo generar un vídeo de 5 minutos de forma nativa sin ningún problema? Se basa en un método de preentrenamiento llamado tareas de continuación de vídeo. Durante el entrenamiento, LongCat-Video no ve fragmentos cortos, sino una gran cantidad de series de televisión. Su sistema se centra en anticipar lo que sucederá a continuación, en lugar de en cómo debería verse la escena. Cuando el modelo ve una serie de televisión, no la ve fotograma a fotograma, sino segmento a segmento y evento a evento. Comprende la «introducción, desarrollo, clímax y conclusión» de las acciones, un mecanismo denominado Atención Causal por Bloques. De esta manera, las largas secuencias de acciones no se fragmentan fácilmente. Al generar vídeos largos, LongCat-Video también almacena en caché los elementos invariables previamente calculados, como el edificio del fondo, para que no sea necesario recalcularlos en cada fotograma. Esto le permite extender la duración del vídeo hasta 5 minutos. (6/6)

Hilo de 卡尔的AI沃茨 (@aiwarts)

Información del autor

Contenido del hilo