MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

向作者提问

NEW

简介

多视角逆渲染旨在从多个视点一致地恢复几何形状、材质和光照。现有的单视角方法在应用于多视角图像时，往往忽略视点间的关联性，导致结果不一致。相比之下，多视角优化方法依赖于速度较慢的可微分渲染以及针对每个场景的单独优化，计算成本高昂且难以扩展。为解决这些局限性，我们提出了一种前馈式的多视角逆渲染框架，能够直接从RGB图像序列中预测空间变化的反照率、金属度、粗糙度、漫反射阴影以及表面法向量。通过在不同视图之间交替使用注意力机制，我们的模型能够同时捕捉单个视图内部的长距离光照交互以及跨视图的材质一致性，从而在一次前向传播中实现连贯的场景级推理。由于真实世界训练数据稀缺，仅在现有合成数据集上训练的模型通常难以泛化到真实场景。为克服这一问题，我们提出一种基于一致性的微调策略，利用未标注的真实世界视频来提升模型在多视角一致性以及复杂现实条件下的鲁棒性。在多个基准数据集上的大量实验表明，我们的方法在多视角一致性、材质与法向估计质量以及对真实图像的泛化能力方面均达到了当前最优水平。项目主页：https://maddog241.github.io/mvinverse-page/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多视角逆渲染中几何、材质和光照在多个视图间的一致性恢复问题。现有单视角方法忽略了跨视角关系，导致结果不一致；而多视角优化方法依赖于慢速的可微分渲染和逐场景优化，计算成本高、难以扩展。这是一个具有挑战性的经典问题，但在真实世界数据上的泛化能力不足使其仍具研究价值。
关键思路

提出一种前馈式的多视角逆渲染框架，直接从RGB图像序列中预测空间变化的反照率、金属度、粗糙度、漫反射阴影和表面法线。通过在不同视角间交替注意力机制，模型同时建模了单个视角内的长距离光照交互和跨视角的材质一致性，实现在单次前向传播中进行场景级的连贯推理。此外，设计了一种基于一致性的微调策略，利用未标注的真实世界视频提升模型在野外条件下的多视角一致性和鲁棒性。
其它亮点

实验在多个基准数据集上验证了方法在多视角一致性、材质与法线估计质量以及对真实场景的泛化能力方面达到SOTA水平。亮点包括：1）无需可微分渲染或迭代优化，实现快速推理；2）引入视角间交替注意力机制增强跨视图一致性；3）提出无监督一致性微调策略，有效桥接合成到真实的域差距；4）项目页提供了代码和模型（https://maddog241.github.io/mvinverse-page/），促进复现与后续研究。未来可探索将其扩展至动态场景或结合神经辐射场进行联合优化。
相关研究

1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 2. Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image 3. Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields 4. DIB-R: Differentiable Interpolation-Based Renderer 5. Consistent Multi-View Inverse Rendering with Differentiable Monte Carlo Rendering

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问