哇,这真是太酷了! EgoX:从任何第三人称镜头生成沉浸式第一人称视频 贡献: • 我们提出了一种新颖的框架 EgoX,它通过有效利用预训练的视频扩散模型,从单个以自我为中心的视频合成高保真度的以自我为中心的视频。 • 我们设计了一种统一的条件策略,通过宽度和通道上的整合,将以外部为中心的视频和以自我为中心的先验结合起来,从而实现了稳健的几何一致性和高质量的生成。 • 我们引入几何引导的自注意力和清晰的潜在表示,选择性地关注与视图相关的区域并增强精确重建,从而实现更连贯的以自我为中心的合成。 • 大量的定性和定量实验表明,EgoX 的性能远超以往的方法,在各种具有挑战性的外向到自我视频生成基准测试中取得了最先进的性能。
论文链接:htarxiv.org/pdf/2512.08269目链接:https://t.co/TthGwqAgBT



