Reconstruction, remplissage, ajustement fin en temps réel : synthèse dynamique de nouvelles vues à partir de vidéos monoculaires TL;DR : CogNVS est un modèle de diffusion vidéo pour la synthèse dynamique de nouvelles vues, entraîné de manière auto-supervisée en utilisant uniquement des vidéos 2D ! Nous reformulons la synthèse de nouvelles perspectives comme une tâche de remplissage structurée : 1. Reconstruire les vues d'entrée avec des systèmes SLAM prêts à l'emploi. 2. Créer des paires d'entraînement auto-supervisées pour le pré-entraînement d'un modèle de remplissage. 3. Ajustement fin au moment du test par rapport à l'entrée lors de l'inférence.
Document (pdfopenreview.net/pdf/51d7011247…I20b Projcog-nvs.github.ior0cnQ github.com/Kaihua-Chen/co…FjbaVe7



