Motion4D : Apprentissage du mouvement et de la sémantique 3D pour la compréhension des scènes 4D Nous proposons Motion4D, un modèle qui intègre des informations a priori 2D issues de modèles de base dans une représentation dynamique 3D par projection gaussienne. Ceci permet une modélisation cohérente du mouvement et de la sémantique à partir de vidéos monoculaires. • Nous concevons un cadre d'optimisation itératif en deux parties comprenant : - Optimisation séquentielle : met à jour les champs de mouvement et sémantiques par étapes successives afin de maintenir la cohérence locale. - Optimisation globale : affine conjointement tous les attributs pour assurer une cohérence à long terme. Nous proposons un raffinement itératif du mouvement utilisant des cartes de confiance 3D et un rééchantillonnage adaptatif pour améliorer la reconstruction de scènes dynamiques. Le raffinement sémantique corrige les incohérences sémantiques 2D par des mises à jour itératives avec SAM2. • Notre Motion4D surpasse nettement les modèles de base 2D et les méthodes 3D existantes dans des tâches telles que la segmentation d'objets vidéo, le suivi basé sur des points et la synthèse de vues inédites.
Document (pdfopenreview.net/pdf/92325b315b…bzsO Projhrzhou2.github.io/motion4d-web/IIDB5



