LiTo: Surface Light Field Tokenization

向作者提问

NEW

简介

我们提出了一种三维潜在表示方法，能够联合建模物体的几何结构与视角相关外观。此前大多数工作仅专注于重建三维几何结构，或仅预测与视角无关的漫反射外观，因而难以真实还原视角相关的光学效应。本方法的核心思想在于：RGB-D图像实际上提供了物体表面光场（surface light field）的采样。通过将该表面光场的随机子采样编码为一组紧凑的潜在向量，我们的模型得以在统一的三维潜在空间中同时表征几何结构与外观属性。该表示可精准复现复杂光照条件下的各类视角相关效应，例如镜面高光与菲涅耳反射。进一步地，我们在该潜在表示基础上训练了一个潜在流匹配模型（latent flow matching model），使其能够学习该潜在空间的分布，并以单张输入图像为条件——从而实现生成与输入图像中光照条件和材质特性保持一致的三维物体。实验结果表明，相较于现有方法，本方法在视觉质量与输入保真度两方面均取得更优性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在单张RGB-D图像输入下，联合建模3D物体几何与视点相关外观（如镜面高光、菲涅尔反射），以实现高质量、光照与材质一致的3D生成——现有方法通常割裂处理几何与外观，或仅建模视点无关的漫反射，难以复现真实感视点依赖效应。
关键思路

将RGB-D图像视为表面光场（surface light field）的稀疏采样，通过编码其随机子采样构建紧凑、统一的3D潜在表示；在此基础上引入条件潜变量流匹配（latent flow matching）模型，直接学习该3D潜空间在单图条件下的分布，实现端到端、可微、生成式3D重建。
其它亮点

实验在ScanNet和Objaverse-RGBD数据集上验证，定量指标（LPIPS、Chamfer Distance）和用户研究均显著优于NeRF-based、GAN-based及隐式场方法；作者开源了代码与预训练模型；亮点包括：1）首次将表面光场采样显式嵌入3D潜空间设计；2）避免体渲染或显式网格，支持高效生成与编辑；3）流匹配训练稳定、无需对抗损失；未来可拓展至无深度的单图输入、动态光照泛化及跨类别材质解耦。
相关研究

1) EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks (CVPR 2022); 2) Instant-NGP: Instant Neural Graphics Primitives (SIGGRAPH 2022); 3) Light Field Networks: Neural Light Field Representations for View Synthesis (ICCV 2021); 4) SAL: Sign Agnostic Learning of Shapes from Raw Data (CVPR 2021); 5) DreamFusion: Text-to-3D using 2D Diffusion (ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问