MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

向作者提问

NEW

简介

多视角逆渲染旨在从多个视角一致地恢复几何形状、材质和光照信息。现有的单视角方法在应用于多视角图像时，往往忽略视角间的关联性，导致结果不一致。相比之下，多视角优化方法依赖于速度较慢的可微分渲染技术以及针对每个场景的单独优化，计算成本高昂且难以扩展。为克服这些局限，我们提出了一种前馈式的多视角逆渲染框架，能够直接从RGB图像序列中预测空间变化的反照率、金属度、粗糙度、漫反射阴影以及表面法向。通过在不同视角间交替使用注意力机制，我们的模型能够同时捕捉单个视角内部的长距离光照交互以及跨视角的材质一致性，从而在一次前向传播中实现连贯的场景级推理。由于真实世界训练数据的稀缺，基于现有合成数据集训练的模型通常难以泛化到真实场景中。为解决这一问题，我们提出一种基于一致性的微调策略，利用未标注的真实世界视频来提升模型在多视角下的一致性以及在复杂真实条件下的鲁棒性。在多个基准数据集上的大量实验表明，我们的方法在多视角一致性、材质与法向估计质量以及对真实图像的泛化能力方面均达到了当前最优水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多视角逆渲染中几何、材质和光照恢复的一致性问题。现有单视角方法忽略跨视角关系，导致结果不一致；而多视角优化方法依赖缓慢的可微分渲染和逐场景优化，计算成本高、难以扩展。此外，合成数据训练的模型在真实场景中泛化能力差，缺乏高质量的真实世界标注数据。这是一个具有挑战性的经典问题，但在多视角一致性与实时推理结合方面仍有改进空间。
关键思路

提出一种前馈式多视角逆渲染框架，直接从多视角RGB图像序列中联合预测空间变化的反照率、金属度、粗糙度、漫反射阴影和法线。通过在不同视图间交替注意力机制，模型同时建模视图内的长距离光照交互和视图间的材质一致性，实现在单次前向传播中进行全局场景推理。此外，设计了一种基于一致性的微调策略，利用无标签的真实世界视频提升模型在真实环境下的多视角一致性和鲁棒性。相比传统方法，该方法无需迭代优化，显著提升效率并增强真实场景泛化能力。
其它亮点

实验在多个基准数据集上验证了方法在多视角一致性、材质与法线估计质量以及真实图像泛化方面的SOTA性能。亮点包括：1）首次实现端到端、前馈式的多属性多视角逆渲染；2）引入交叉视图注意力机制以实现高效一致推理；3）提出无监督一致性微调策略，有效桥接合成到真实的域差距；4）虽未明确提及开源代码，但方法设计适合实际部署。未来可探索动态场景扩展、更复杂的BRDF建模及与其他SLAM系统融合。
相关研究

1. 'Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image', CVPR 2020 2. 'MVSRecon: Fast Multi-View Stereo and Surface Reconstruction with Semantic Understanding', ECCV 2022 3. 'Neural RGB-D Inverse Rendering for Relightable 3D Models', SIGGRAPH Asia 2023 4. 'Consistent Multi-View Inverse Rendering via Differentiable Monte Carlo Rendering', CVPR 2023 5. 'MARINE: Multi-view Aggregation and Refinement for Inverse Rendering', ICCV 2023

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问