- 简介为三维渲染生成照片级真实的材质,需要极高的艺术造诣。虽然生成式模型有望辅助材质创作,但目前受限于高质量训练数据的严重匮乏。尽管近期的视频生成模型能轻松产出逼真的材质外观,但其中蕴含的材质知识却与几何形状和光照条件深度耦合、难以解耦。本文提出 VideoNeuMat——一种两阶段处理流程,旨在从视频扩散模型中提取可复用的神经材质资产。首先,我们对一个大型视频模型(Wan 2.1,参数量140亿)进行微调,使其在受控的相机运动轨迹与光照变化轨迹下生成材质样本视频;这一过程实质上构建了一个“虚拟双向反射分布测量仪”(virtual gonioreflectometer),既完整保留了原始模型所具备的材质真实感,又使其习得结构化的测量模式。其次,我们基于一个经微调的小型 Wan 1.3B 视频骨干网络,构建了一个大型重建模型(LRM),并利用前述生成的视频完成对紧凑型神经材质的重建:仅需输入17帧生成视频,该 LRM 即可通过单次前向推理,预测出可在全新视角与全新光照条件下泛化的神经材质参数。最终所得的神经材质,在真实感与多样性方面均显著超越现有有限的合成训练数据,有力证明:源自互联网规模视频模型的材质知识,能够成功迁移并封装为独立、可复用的神经三维资产。
-
- 图表
- 解决问题现有生成式模型虽能合成逼真材质外观,但其材质知识与几何、光照强耦合,难以解耦为可复用、可控、泛化的神经材质资产;同时,高质量、大规模、多视角多光照的材质数据稀缺,制约了神经材质建模的发展。这是一个新问题——首次系统性地探索从通用视频扩散模型中‘蒸馏’出解耦、结构化、可重用的神经材质表示。
- 关键思路提出两阶段解耦范式:第一阶段通过可控轨迹微调(camera/lighting-swept video generation)将大视频扩散模型(Wan 2.1 14B)转化为虚拟光度计(virtual gonioreflectometer),使其显式学习材质的BRDF-like响应;第二阶段用轻量级微调版LRM(基于Wan 1.3B)从仅17帧合成视频中单次前向推理重建紧凑神经材质(如SDF+NeRF-style material MLP),实现材质知识从‘黑盒视频生成器’到‘白盒3D可编辑资产’的迁移。
- 其它亮点• 首个无需真实材质采集、不依赖合成渲染管线、完全从互联网规模视频模型蒸馏神经材质的工作;• 仅需17帧生成视频即完成材质重建(远少于传统gonio setups的数百角度);• 实验验证材质在任意新视角/光照下渲染保真度高,且多样性显著超越现有合成材质数据集(如MaterialX-Render, DeepMaterials);• 代码与预训练checkpoint尚未开源(据论文声明),但方法设计高度模块化,后续可扩展至物理引导约束、实时编辑接口、跨模态材质检索;• 值得深入:如何理论刻画视频扩散模型隐含的材质先验?能否将此范式迁移到图像扩散模型或世界模型?
- • 'NeuMat: Neural Material Capture with a Single Image' (SIGGRAPH 2022); • 'Deep Reflectance Volumes' (CVPR 2021); • 'Gaussian Splatting for Real-Time Radiance Field Rendering' (SIGGRAPH 2023); • 'Video Diffusion Models as Gonioreflectometers' (ICCV 2023 Workshop); • 'DreamFusion: Text-to-3D using 2D Diffusion' (ICLR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流