ECCV 2022｜DiffuStereo：使用稀疏相机通过基于扩散的立体进行高质量人体重建

论文地址：https://arxiv.org/pdf/2207.08000.pdf

摘要

我们提出了Diffustereo，这是一种仅使用稀疏相机（在这项工作中8）进行高质量3D人类重建的新型系统。其核心是一种新型基于扩散的立体声模块，该模块将扩散模型（一种强大的生成模型）引入迭代立体声匹配网络中。为此，我们设计了一个新的扩散内核和其他立体限制，以促进网络中的立体声匹配和深度估计。我们进一步提出了一个多级立体声网络体系结构，以处理高分辨率（最多4K）输入，而无需无法负担的内存足迹。考虑到人类的一组稀疏视图颜色图像，提出的基于多级扩散的立体声网络可以产生高准确的深度图，然后通过有效的多视图融合策略将其转换为高质量的3D人类模型。总体而言，我们的方法可以自动重建人类模型，其质量在高端密集摄像头钻机上具有质量，并且使用更轻巧的硬件设置来实现。实验表明，我们的方法在定性和定量上都优于最先进的方法。

主要贡献

总而言之，我们在这项工作中的贡献是：

我们提出了Diffustereo，这是一种在稀疏的多视频摄像机下人类体积重建的轻巧和高质量的系统。
据我们所知，我们提出了第一种将扩散模型引入立体声和人类重建的方法。我们通过仔细设计新的扩散内核并将其他立体声约束引入扩散条件来扩展香草扩散模型。
我们提出了一个新型的多级扩散立体声网络，以实现准确和高质量的人类深度估计。我们的网络可以优雅地处理高分辨率（最多4K）图像，而不会遭受内存超负荷的困扰。

实验

我们从Twindom [57]收集300款模型，并渲染图像对进行训练。我们首先渲染图像和深度图，从360°角密集地分辨率分辨率。然后，我们在8个甚至分布式视图的图像上运行双场[52]，以5123分辨率预测SDF体积，并使用Martinging Cube进一步检索了粗糙的人网。在训练基于扩散的立体声网络的过程中，我们从同一模型的渲染图像中随机选择两个视图，并在[20，50]的间隔中限制其角度。我们还计算两个视图之间的遮挡区域，并过滤不良零件，以避免训练不稳定。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ECCV 2022｜DiffuStereo：使用稀疏相机通过基于扩散的立体进行高质量人体重建

摘要

主要贡献

实验

评论列表

评论