Représentation gaussienne profonde par mouvement : exploration de modèles géométriques 3D fondamentaux pour la projection gaussienne Contributions : • Adaptation du modèle de base sans annotation de pose : contrairement à VGGT/MegaSAM, qui s’appuient sur des poses précalculées (potentiellement affectées par des imprécisions), notre pipeline fonctionne sans annotations de pose. Ceci est réalisé en affinant dynamiquement les géométries gaussiennes pour aligner l’apparence photométrique avec la synthèse de nouvelles vues cohérentes avec les rayons. • Conception progressive et modulaire : La conception progressive permet une évolutivité itérative, palliant les goulots d’étranglement du GPU inhérents aux pipelines de type VGGT. La modularité garantit la robustesse face à la diversité des scènes, permettant d’affiner les composants indépendamment des contraintes de mémoire imposées par les ensembles d’images denses. • Prédiction gaussienne spécifique à la scène : notre méthode prédit dynamiquement les géométries gaussiennes pour chaque scène d’entrée, en s’adaptant à ses caractéristiques photométriques et géométriques uniques pour une synthèse de haute qualité — une flexibilité moins évidente dans les méthodes feed-forward comme VGGT/MegaSAM, qui traitent les entrées de manière moins adaptative.
Document (pdfopenreview.net/pdf/0a5c5e8277…IDqS



