On Unifying Video Generation and Camera Pose Estimation

向作者提问

NEW

简介

受到图像生成器中新兴的3D功能的启发，我们探讨了视频生成器是否同样具备3D感知能力。使用结构光测距（Structure-from-Motion, SfM）作为3D任务的基准，我们研究了OpenSora这一视频生成模型的中间特征是否能够支持相机姿态估计。首先，我们通过将原始中间输出传递给如DUSt3R等SfM预测模块，来检验视频生成特征中的固有3D感知能力。接着，我们探索了微调对相机姿态估计的影响，以增强3D感知能力。结果表明，虽然视频生成器的特征本身具有有限的固有3D感知能力，但特定任务的监督显著提高了其在相机姿态估计方面的准确性，从而达到了具有竞争力的性能。所提出的统一模型命名为JOG3R，在不降低视频生成质量的前提下，该模型能够产生具有竞争力的相机姿态估计结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图验证视频生成模型是否具备3D意识，特别是这些模型的中间特征能否支持相机姿态估计。这是一个相对较新的问题，因为大多数现有的研究主要集中在图像生成器的3D能力上，而对视频生成器的3D理解的研究较少。
关键思路

关键思路是利用结构化运动（SfM）作为基准任务，评估OpenSora视频生成模型的中间特征在未经过额外训练的情况下能否用于相机姿态估计。此外，作者还探讨了通过特定任务的微调来增强这些特征的3D意识的可能性。这一方法不同于以往仅关注图像生成器的研究，而是首次系统地探索了视频生成器的3D潜力。
其它亮点

论文设计了一系列实验，首先直接使用视频生成模型的中间特征进行SfM预测，然后通过微调模型以提高其在相机姿态估计任务上的表现。实验结果显示，虽然原始特征的3D意识有限，但经过微调后，性能显著提升，达到了与专门设计的3D感知模型相竞争的水平。此外，作者提出了一个名为JOG3R的统一模型，在不降低视频生成质量的前提下，实现了高质量的相机姿态估计。论文中提到所有代码和模型均已开源，鼓励进一步的研究。
相关研究

近期相关研究包括：1.《Exploring the Limits of Weakly Supervised Pretraining》探讨了弱监督预训练在视觉任务中的应用；2.《Learning to Predict 3D Objects with an Interpretable Pose and Shape Regressor》专注于从2D图像预测3D物体的姿态和形状；3.《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》介绍了如何使用神经辐射场表示场景以合成新视角。这些研究共同推动了计算机视觉领域对3D理解和生成的研究进展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问