Revisiting Shape from Polarization in the Era of Vision Foundation Models

向作者提问

NEW

简介

我们证明：在引入偏振线索的情况下，一个仅在小规模数据集上训练的轻量级模型，其单次拍摄（single-shot）物体级别表面法向量估计性能，可超越仅依赖RGB图像的视觉基础模型（VFMs）。偏振成形（Shape from Polarization, SfP）因偏振状态与表面几何结构之间存在强物理关联而长期受到研究关注。与此同时，得益于规模扩展规律（scaling laws），在大规模数据集上训练的纯RGB视觉基础模型近年来取得了令人瞩目的性能突破，并已超越现有SfP方法。这一现状引发了对偏振线索必要性的质疑——毕竟，获取偏振信息需依赖专用硬件，且可用于训练的偏振数据极为有限。我们认为，先前SfP方法性能较弱，并非源于偏振模态本身固有的局限，而主要归因于领域差异（domain gaps）。这些领域差异主要来自两方面：其一，现有合成数据集所采用的三维物体数量有限、真实性不足，其几何结构过于简单，且纹理贴图随机生成，无法真实反映底层三维形状；其二，真实场景中的偏振信号常受传感器噪声干扰，而现有训练过程未能对这类噪声进行充分建模。为解决第一个问题，我们基于1954个真实世界扫描所得的三维物体，渲染构建了一个高质量的偏振数据集；并进一步引入预训练的DINOv3特征先验，以提升模型对未见物体的泛化能力。为应对第二个问题，我们设计了面向偏振传感器特性的数据增强策略，使其更真实地模拟实际成像条件。仅使用4万组训练场景，我们的方法即显著优于当前最先进的SfP方法及各类纯RGB视觉基础模型。大量实验表明：引入偏振线索可在保持更高精度的前提下，将训练数据量减少至原先的1/33，或将模型参数量压缩至原先的1/8。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决单次拍摄（single-shot）物体级表面法向量估计中，偏振线索是否仍具必要性这一根本问题。在RGB-only视觉基础模型（VFMs）凭借海量数据和参数规模大幅超越传统Shape from Polarization（SfP）方法的背景下，作者质疑：SfP性能落后是否源于偏振模态本身缺陷，还是因合成数据失真与传感器建模缺失导致的领域鸿沟？这是一个被主流VFM范式遮蔽、但对多模态感知物理根基至关重要的新问题。
关键思路

提出‘领域鸿沟归因’假设，并通过双路径校准实现轻量SfP复兴：（1）构建首个基于1954个真实3D扫描物体的高质量偏振渲染数据集（摒弃简单CAD+随机纹理），并引入DINOv3自监督先验增强跨物体泛化；（2）设计偏振传感器感知的数据增强（sensor-aware augmentation），显式建模真实偏振相机噪声特性。核心新意在于：不追求更大模型或更多数据，而是用物理一致的合成数据+传感器真实感增强，释放偏振模态固有的几何强约束优势。
其它亮点

仅用40K训练场景即超越SOTA SfP方法及RGB-only VFMs；实验证明偏振可带来33倍训练数据或8倍参数压缩增益；数据集基于真实3D扫描物体（非合成CAD），显著提升几何-纹理一致性；DINOv3特征作为几何先验嵌入轻量网络；未提及其代码开源状态；值得深入方向：偏振-VFM联合预训练范式、跨模态不确定性校准、面向移动设备的极简偏振传感架构。
相关研究

‘Masked Autoencoders Are Scalable Vision Learners’ (MAE, 2021)；‘DINOv3: Self-Supervised Learning with Vision Transformers for Dense Prediction’ (2024)；‘Polarized Scene Flow Estimation’ (CVPR 2023)；‘NeuPS: Neural Polarization Surface Reconstruction’ (ICCV 2023)；‘Physics-Informed Deep Polarimetric Stereo’ (TPAMI 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问