X (Twitter)

Reconstruir, preencher e ajustar em tempo real: síntese dinâmica de novas perspectivas a partir de vídeos monoculares. Resumindo: CogNVS é um modelo de difusão de vídeo para síntese dinâmica de novas perspectivas, treinado de forma autossupervisionada usando apenas vídeos 2D! Reformulamos a síntese de novas perspectivas como uma tarefa de preenchimento estruturado: 1. Reconstruir visualizações de entrada com sistemas SLAM prontos para uso. 2. Criar pares de treinamento autossupervisionado para o pré-treinamento de um modelo de inpainting. 3. Ajuste fino em tempo de teste à entrada na inferência.

Artigo (pdf):openreview.net/pdf/51d7011247…b Projetocog-nvs.github.ionQ Códgithub.com/Kaihua-Chen/co…baVe7

Artigo (pdf): https://t.co/taAbxdI20b
Projeto: https://t.co/lXPGZr0cnQ
Código: https://t.co/FD3FjbaVe7

Thread de MrNeRF (@janusch_patas)

Informações do autor

Conteúdo da thread