X (Twitter)

Este artículo de AniX, una colaboración entre Microsoft y la Universidad de Fudan, es bastante interesante. Dejemos que una IA lo interprete: ¿Cómo sería poner un personaje diseñado por ti mismo en un mundo 3D y luego controlarlo para que realice diversas acciones como en un juego? Un equipo de Microsoft Research y la Universidad de Fudan creó un sistema llamado AniX, que es básicamente de lo que se trata. Dale una escena 3D (generada con tecnología 3DGS), dale un personaje y luego dile en lenguaje natural que "corra hacia adelante" o "toque la guitarra" y podrá generar el video correspondiente. Las capacidades principales se centran en cuatro aspectos: 1. Coherencia de la escena y los personajes: En el vídeo generado, la apariencia de los personajes y la apariencia de la escena son consistentes con lo que usted proporcionó. 2. La biblioteca de acciones es muy rica, no solo se trata de caminar y correr, sino también de gestos (como saludar con la mano) e incluso interactuar con objetos (hacer llamadas telefónicas y tocar la guitarra). Los datos de entrenamiento solo contenían cuatro acciones de movimiento básicas, pero el modelo aprendió a generalizar y realizar 142 acciones desconocidas. (¡¿?!) 3. Permite la interacción continua. Puedes dar instrucciones ronda tras ronda, y cada video generado continuará el anterior, manteniendo la continuidad. Es como explorar un mundo de verdad. 4. El diseño de control de la cámara es bastante inteligente. En lugar de usar una compleja codificación matemática para controlarla, renderiza directamente la trayectoria deseada en la escena 3DGS y utiliza este resultado como entrada condicional. Es como mostrarle al modelo un "video de referencia" y decirle cómo debe moverse la cámara. La idea central de todo el sistema es la generación de vídeo autorregresivo condicional. Los datos de entrenamiento provienen de fuentes muy prácticas: grabaciones del juego GTA-V. Grabaron más de 2.000 vídeos, cada uno con una sola acción, y luego hicieron tres cosas: 1 Extrae el personaje. 2 Completa el fondo (usando herramientas de restauración de IA). ③ Etiquetar las acciones Cada personaje está representado por imágenes desde cuatro perspectivas (frontal, trasera, izquierda y derecha), para que el modelo pueda percibir al personaje desde diferentes ángulos. La arquitectura del modelo se basa en HunyuanCustom (13 mil millones de parámetros) y utiliza el método de entrenamiento Flow Matching. Cómo introducir información condicional variada en el modelo: ① Las máscaras de escena y personajes se integran directamente con el ruido. ② Los comandos de texto y las imágenes de personajes multivista se integran en la secuencia. ③ Se utilizan diferentes códigos posicionales para distinguir estas entradas. Se hizo un descubrimiento interesante: El ajuste del modelo previamente entrenado utilizando datos de movimiento simples no solo no dañó la capacidad de generalización del modelo, sino que también mejoró la calidad del movimiento. Se parece a entrenar un modelo de lenguaje grande; el ajuste no consiste en volver a aprender el conocimiento, sino más bien en ajustar el "estilo de habla". Utilizaron el sistema de evaluación WorldScore para medir la calidad visual. Los resultados superaron los modelos de generación de video existentes y los modelos mundiales especializados en casi todas las métricas. La tasa de éxito del control de movimiento es particularmente reveladora: ① Animaciones de movimiento básicas: 100 % de éxito ② 142 nuevas animaciones: 80,7 % de éxito En comparación, otros modelos tienen una tasa de éxito de menos del 50% en movimientos básicos, y algunos incluso tan baja como el 3,3%. La consistencia del rol se midió utilizando puntuaciones DINOv2 y CLIP, y AniX logró puntuaciones de 0,698 y 0,721 respectivamente, significativamente más altas que otros métodos. Varias opciones de diseño clave La entrada de caracteres desde múltiples vistas es realmente útil. Compararon perspectivas de vista única, vista doble y cuatro vistas, y descubrieron que los puntajes de consistencia de los personajes aumentaron con el aumento en el número de perspectivas. El enmascaramiento de personajes también es importante. Con la información de enmascaramiento de cada cuadro, el modelo puede distinguir mejor entre personajes dinámicos y escenas estáticas. Las condiciones visuales son claramente útiles para la generación a largo plazo. Si se eliminan las condiciones de la escena 3DGS o las condiciones de los personajes con múltiples vistas, la calidad generada disminuirá significativamente con el tiempo. El modelo original tarda 121 segundos en generar 93 fotogramas de vídeo 360P (H100 único). Después de destilar con DMD2 en la versión de 4 pasos, solo toma 21 segundos sin casi ninguna pérdida de calidad. Me vinieron a la mente algunos puntos interesantes: El valor de los datos del juego. Juegos como GTA-V proporcionan una gran cantidad de datos de entrenamiento estructurados, con personajes, entornos y acciones fácilmente disponibles. Esta puede ser una fuente de datos subestimada. Estrategia de formación híbrida. Luego agregaron 400 videos de acción en vivo, usando las etiquetas "renderizado" y "real" para distinguir entre el juego y el estilo de la vida real. Esta simple anotación de datos permite que el modelo aprenda a distinguir diferentes estilos visuales, lo cual es bastante ingenioso. La fuente de la capacidad de generalización. Entrenar con sólo 4 movimientos básicos, pero ser capaz de realizar 142 movimientos nuevos, demuestra que el modelo pre-entrenado ya contiene una gran cantidad de conocimientos sobre el movimiento humano. El ajuste fino consiste simplemente en activar y alinear este conocimiento. El enfoque del control de la cámara. Representar videos de referencia directamente es más intuitivo y controlable que codificarlos en representaciones matemáticas abstractas. Vale la pena aprender esta filosofía de diseño de "lo que ves es lo que obtienes". El artículo no indica explícitamente sus limitaciones, pero los siguientes problemas son evidentes: Los datos de entrenamiento aún son demasiado escasos: más de 2.000 vídeos no son muchos para una tarea tan compleja. La tasa de éxito de las acciones de interacción con objetos (80,7%) es buena, pero todavía hay margen de mejora. Si bien los tiempos de generación más largos muestran cierta mejora, la calidad sigue disminuyendo con el tiempo, como se puede observar en los gráficos. Este podría ser un problema común en los modelos autorregresivos. La escena debe estar en formato 3DGS, lo cual supone una barrera para los usuarios comunes. Aunque se puede generar utilizando herramientas como Marble, agrega otra capa de dependencia. En general, AniX ha dado un gran paso adelante en la dirección de la generación de animación de personajes controlable. No necesitas cantidades masivas de datos ni diseños complejos; si encuentras el enfoque adecuado, puedes lograr grandes resultados con pequeñas cantidades de datos.

El artarxiv.org/pdf/2512.17796 encontrar en https://t.co/0RSMzZPuon

Hilo de 向阳乔木 (@vista8)

Información del autor

Contenido del hilo