Motion4D:学习与 3D 一致的运动和语义以实现 4D 场景理解 贡献: • 我们提出了 Motion4D 模型,该模型将基础模型中的 2D 先验信息整合到动态 3D 高斯散射表示中。这实现了从单目视频中一致地进行运动和语义建模。 • 我们设计了一个包含以下两部分的迭代优化框架: - 顺序优化,在连续阶段更新运动和语义场,以保持局部一致性。 - 全局优化,它对所有属性进行联合优化,以确保长期一致性。 • 我们引入了使用 3D 置信度图和自适应重采样的迭代运动细化来增强动态场景重建,同时引入了语义细化来通过 SAM2 的迭代更新来纠正 2D 语义不一致。 • 我们的 Motion4D 在视频对象分割、基于点的跟踪和新视角合成等任务中,性能显著优于 2D 基础模型和现有的 3D 方法。
论文链接:htarxiv.org/abs/2512.03601目链接:https://t.co/SEmM7IIDB5



