- 简介我们提出了 Pow3r,这是一种新颖的大规模 3D 视觉回归模型,具有高度灵活的输入模态兼容性。与之前在测试时无法利用已知相机或场景先验信息的前馈模型不同,Pow3r 在单一网络中结合了任何组合的辅助信息,例如内参、相对姿态、稠密或稀疏深度,以及输入图像。基于最近的 DUSt3R 范式(一种利用强大预训练的基于 Transformer 的架构),我们的轻量级且灵活的条件机制为网络提供了额外的引导,在有辅助信息的情况下预测更准确的结果。在训练过程中,我们在每次迭代中随机向模型输入模态的子集,从而使模型在测试时能够适应不同水平的已知先验信息。这反过来开启了新的能力,例如以原生图像分辨率进行推理,或完成点云补全任务。我们在 3D 重建、深度补全、多视图深度预测、多视图立体视觉和多视图姿态估计任务上的实验取得了最先进的结果,并验证了 Pow3r 在充分利用所有可用信息方面的有效性。项目网页为 https://europe.naverlabs.com/pow3r。
- 图表
- 解决问题Pow3r试图解决在3D视觉任务中有效利用多种输入模态(如图像、相机内参、稀疏或稠密深度等)的问题,以提高预测精度。这是一个具有挑战性的问题,因为大多数现有模型无法灵活地结合测试时的先验信息。
- 关键思路Pow3r提出了一种基于DUSt3R范式的轻量级条件化机制,能够在训练过程中随机使用不同模态的子集,从而使模型在推理时能够适应各种已知先验的存在情况。这一方法不仅增强了模型的灵活性,还显著提高了预测准确性。
- 其它亮点该模型在多个3D视觉任务(如3D重建、深度补全、多视角深度预测等)上取得了最先进的结果。实验设计涵盖了多种场景和数据集,并展示了模型在高分辨率图像上的推理能力。此外,项目代码和网页已公开(https://europe.naverlabs.com/pow3r),为未来研究提供了良好的基础。值得深入研究的方向包括进一步优化条件化机制以及探索更多实际应用场景。
- 最近的相关研究包括:1) DUSt3R:一种基于Transformer的预训练架构,为Pow3r奠定了基础;2) MVSNet及其变体:专注于多视角立体视觉的任务;3) Depth Completion Networks:针对深度补全问题的深度学习方法;4) NeRF及其扩展:通过神经辐射场实现高质量的3D场景重建。
沙发等你来抢
去评论
评论
沙发等你来抢