- 简介为三维渲染生成照片级真实的材质,需要极高的艺术造诣。虽然生成式模型有望辅助材质创作,但目前受限于高质量训练数据的严重匮乏。尽管近期的视频生成模型能够轻松合成逼真的材质外观,但其中蕴含的材质知识却与几何形状和光照条件深度耦合、难以解耦。本文提出 VideoNeuMat——一种两阶段处理流程,旨在从视频扩散模型中提取可复用的神经材质资产。首先,我们对一个大型视频生成模型(Wan 2.1,参数量140亿)进行微调,使其在受控的相机运动轨迹与光照变化轨迹下生成材质样本视频;这一过程实质上构建了一个“虚拟双向反射分布函数测量仪”(virtual gonioreflectometer),既完整保留了原模型所具备的材质真实感,又使其学会遵循结构化的测量范式。其次,我们基于一个经微调的小型视频骨干网络(Wan 1.3B)构建大型重建模型(LRM),并利用前述生成的视频帧对其进行训练,从而从视频中重建出紧凑、高效的神经材质表示。仅需输入17帧生成的视频帧,我们的LRM即可通过单次前向推理,预测出具备泛化能力的神经材质参数——这些参数可自然适配全新的观察视角与光照条件。最终所得的神经材质,在真实感与多样性两方面均显著超越现有有限的合成训练数据,有力证明:源自互联网规模视频模型的材质先验知识,能够成功迁移并封装为独立、通用、可复用的神经三维资产。
-
- 图表
- 解决问题现有生成式模型虽能隐式建模逼真材质外观,但其材质知识与几何、光照、运动等强耦合,难以解耦为可复用、可控、泛化的神经材质资产;同时,高质量、多角度、多光照的材质视频数据稀缺,制约了神经材质的监督训练。
- 关键思路提出VideoNeuMat两阶段范式:第一阶段将大参数视频扩散模型(Wan 2.1 14B)微调为可控‘虚拟光度计’,生成遵循标准球面轨迹(固定相机/光源运动)的材质样本视频;第二阶段用轻量级微调版LRM(基于Wan 1.3B)从仅17帧视频单次前向推理中重建紧凑、可编辑、光照-视角泛化的神经材质表示(如SDF+BRDF参数化),实现知识从黑盒视频生成器到白盒3D资产的无监督蒸馏。
- 其它亮点首次实现从互联网规模视频生成模型中高效蒸馏出物理一致、可编辑、零样本泛化的神经材质;仅需17帧合成视频即可完成单次推理重建,远超传统多视图/多光照采集成本;在无真实材质视频监督下,生成材质在真实感、多样性及Novel View/Lighting泛化上显著超越Synthetic Dataset(如MaterialNet)训练的基线;方法完全基于生成视频,无需真实采集或标注;论文未提及开源代码,数据亦为合成生成,暂无公开数据集。
- NeRF++: Neural Radiance Fields in the Wild (CVPR 2022); Material Diffusion: Learning to Generate Physically-Based Materials from Text (SIGGRAPH Asia 2023); GANverse3D: Unlocking Generalizable 3D-aware Generation from 2D GANs (ICCV 2023); NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction (NeurIPS 2021); VideoDiffusion: Text-to-Video Diffusion Models (ICML 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流