Motion4D: Aprendizaje de movimiento y semántica consistentes en 3D para la comprensión de escenas 4D Proponemos Motion4D, un modelo que integra información previa 2D de modelos base en una representación dinámica 3D de Gaussian Splatting. Esto permite un modelado consistente del movimiento y la semántica a partir de vídeos monoculares. • Diseñamos un marco de optimización iterativa de dos partes que comprende: - Optimización secuencial: actualiza los campos de movimiento y semánticos en etapas consecutivas para mantener la coherencia local. - Optimización global: refina conjuntamente todos los atributos para garantizar la coherencia a largo plazo. • Introducimos el refinamiento iterativo del movimiento mediante mapas de confianza 3D y remuestreo adaptativo para mejorar la reconstrucción de escenas dinámicas. El refinamiento semántico corrige las inconsistencias semánticas 2D mediante actualizaciones iterativas con SAM2. • Nuestro Motion4D supera significativamente tanto a los modelos básicos 2D como a los métodos 3D existentes en tareas como la segmentación de objetos de vídeo, el seguimiento basado en puntos y la síntesis de vistas novedosas.
Documento (pdopenreview.net/pdf/92325b315b…bzsO Proyhrzhou2.github.io/motion4d-web/7IIDB5



