Reconstrucción, relleno, ajuste fino en tiempo de prueba: síntesis dinámica de nuevas vistas a partir de vídeos monoculares TL;DR: CogNVS es un modelo de difusión de vídeo para la síntesis dinámica de nuevas perspectivas, entrenado de forma auto-supervisada utilizando únicamente vídeos 2D. Reformulamos la síntesis de perspectivas novedosas como una tarea de inpainting estructurada: 1. Reconstruir las vistas de entrada con sistemas SLAM comerciales. 2. Crear pares de entrenamiento auto-supervisado para preentrenar un modelo de inpainting. 3. Ajuste fino en tiempo de prueba a la entrada en la inferencia.
Documento (pdopenreview.net/pdf/51d7011247…I20b Proycog-nvs.github.ioZr0cnQ github.com/Kaihua-Chen/co…D3FjbaVe7



