6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

2024年04月18日
  • 简介
    当前的三维重建技术难以准确地从少量图像中还原出无限辽阔的场景。具体而言,现有方法需要高计算能力、详细的姿态信息,并且无法可靠地重建被遮挡的区域。我们介绍了一种名为6Img-to-3D的高效、可扩展的基于Transformer的编码器-渲染器方法,用于从单张图像重建三维场景。我们的方法仅使用六张外向的输入图像,输出一个三维一致的参数化三面体,适用于大规模、无限辽阔的户外驾驶场景。我们通过结合收缩的自定义交叉和自我注意机制,实现了三面体参数化、可微分体积渲染、场景收缩和图像特征投影等功能,从而解决了现有方法的不足之处。我们展示了在推断时使用单个时间戳的六个环视车辆图像就足以重建360度场景,仅需395毫秒。例如,我们的方法可以用于渲染第三人称图像和鸟瞰图。我们的代码可在 https://github.com/continental/6Img-to-3D 找到,更多示例可在我们的网站 https://6Img-to-3D.GitHub.io/ 上找到。
  • 图表
  • 解决问题
    本文旨在解决当前3D重建技术在从少量图像中准确推断无限场景方面的问题,以及高计算需求、需要详细的姿态信息以及不能可靠地重建被遮挡区域等问题。
  • 关键思路
    本文提出了一种名为6Img-to-3D的方法,它是一种基于Transformer的编码器-渲染器方法,仅使用六张朝外的输入图像即可输出3D一致的参数化三面板,用于大规模、无限制的室外驾驶场景。
  • 其它亮点
    本文的亮点在于,将自定义的跨通道和自我注意机制与三面板参数化、可微分体积渲染、场景压缩和图像特征投影相结合,从而实现了对无限场景的准确重建。作者展示了仅使用单个时间戳的六个环绕视图车辆图像即可在推断时间内重建360度场景,花费395毫秒。作者的代码可以在GitHub上找到。
  • 相关研究
    在最近的相关研究中,一些学者尝试使用深度学习技术来解决3D重建问题。例如,DeepSDF使用深度神经网络来拟合3D物体的隐式函数,从而实现了高质量的3D重建。另一个例子是NeRF,它使用神经辐射场来表示3D场景,并通过从不同角度拍摄的图像进行训练,来实现高质量的3D重建。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论