X (Twitter)

Reconstrucción, relleno, ajuste fino en tiempo de prueba: síntesis dinámica de nuevas vistas a partir de vídeos monoculares TL;DR: CogNVS es un modelo de difusión de vídeo para la síntesis dinámica de nuevas perspectivas, entrenado de forma auto-supervisada utilizando únicamente vídeos 2D. Reformulamos la síntesis de perspectivas novedosas como una tarea de inpainting estructurada: 1. Reconstruir las vistas de entrada con sistemas SLAM comerciales. 2. Crear pares de entrenamiento auto-supervisado para preentrenar un modelo de inpainting. 3. Ajuste fino en tiempo de prueba a la entrada en la inferencia.

Documento (pdopenreview.net/pdf/51d7011247…I20b Proycog-nvs.github.ioZr0cnQ github.com/Kaihua-Chen/co…D3FjbaVe7

Documento (pdf): https://t.co/taAbxdI20b
Proyecto: https://t.co/lXPGZr0cnQ
Código: https://t.co/FD3FjbaVe7

Hilo de MrNeRF (@janusch_patas)

Información del autor

Contenido del hilo