Reconstruir, preencher e ajustar em tempo real: síntese dinâmica de novas perspectivas a partir de vídeos monoculares. Resumindo: CogNVS é um modelo de difusão de vídeo para síntese dinâmica de novas perspectivas, treinado de forma autossupervisionada usando apenas vídeos 2D! Reformulamos a síntese de novas perspectivas como uma tarefa de preenchimento estruturado: 1. Reconstruir visualizações de entrada com sistemas SLAM prontos para uso. 2. Criar pares de treinamento autossupervisionado para o pré-treinamento de um modelo de inpainting. 3. Ajuste fino em tempo de teste à entrada na inferência.
Artigo (pdf):openreview.net/pdf/51d7011247…b Projetocog-nvs.github.ionQ Códgithub.com/Kaihua-Chen/co…baVe7



