VideoNeuMat: Neural Material Extraction from Generative Video Models

向作者提问

NEW

简介

为三维渲染生成照片级真实的材质，需要极高的艺术造诣。虽然生成式模型有望辅助材质创作，但目前受限于高质量训练数据的严重匮乏。尽管近期的视频生成模型能轻松产出逼真的材质外观，但其中蕴含的材质知识却与几何形状和光照条件深度耦合、难以解耦。本文提出 VideoNeuMat——一种两阶段处理流程，旨在从视频扩散模型中提取可复用的神经材质资产。首先，我们对一个大型视频模型（Wan 2.1，参数量140亿）进行微调，使其在受控的相机运动轨迹与光照变化轨迹下生成材质样本视频；这一过程实质上构建了一个“虚拟双向反射分布测量仪”（virtual gonioreflectometer），既完整保留了原始模型所具备的材质真实感，又使其习得结构化的测量模式。其次，我们基于一个经微调的小型 Wan 1.3B 视频骨干网络，构建了一个大型重建模型（LRM），并利用前述生成的视频完成对紧凑型神经材质的重建：仅需输入17帧生成视频，该 LRM 即可通过单次前向推理，预测出可在全新视角与全新光照条件下泛化的神经材质参数。最终所得的神经材质，在真实感与多样性方面均显著超越现有有限的合成训练数据，有力证明：源自互联网规模视频模型的材质知识，能够成功迁移并封装为独立、可复用的神经三维资产。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有生成式模型虽能合成逼真材质外观，但其材质知识与几何、光照强耦合，难以解耦为可复用、可控、泛化的神经材质资产；同时，高质量、大规模、多视角多光照的材质数据稀缺，制约了神经材质建模的发展。这是一个新问题——首次系统性地探索从通用视频扩散模型中‘蒸馏’出解耦、结构化、可重用的神经材质表示。
关键思路

提出两阶段解耦范式：第一阶段通过可控轨迹微调（camera/lighting-swept video generation）将大视频扩散模型（Wan 2.1 14B）转化为虚拟光度计（virtual gonioreflectometer），使其显式学习材质的BRDF-like响应；第二阶段用轻量级微调版LRM（基于Wan 1.3B）从仅17帧合成视频中单次前向推理重建紧凑神经材质（如SDF+NeRF-style material MLP），实现材质知识从‘黑盒视频生成器’到‘白盒3D可编辑资产’的迁移。
其它亮点

• 首个无需真实材质采集、不依赖合成渲染管线、完全从互联网规模视频模型蒸馏神经材质的工作；• 仅需17帧生成视频即完成材质重建（远少于传统gonio setups的数百角度）；• 实验验证材质在任意新视角/光照下渲染保真度高，且多样性显著超越现有合成材质数据集（如MaterialX-Render, DeepMaterials）；• 代码与预训练checkpoint尚未开源（据论文声明），但方法设计高度模块化，后续可扩展至物理引导约束、实时编辑接口、跨模态材质检索；• 值得深入：如何理论刻画视频扩散模型隐含的材质先验？能否将此范式迁移到图像扩散模型或世界模型？
相关研究

• 'NeuMat: Neural Material Capture with a Single Image' (SIGGRAPH 2022); • 'Deep Reflectance Volumes' (CVPR 2021); • 'Gaussian Splatting for Real-Time Radiance Field Rendering' (SIGGRAPH 2023); • 'Video Diffusion Models as Gonioreflectometers' (ICCV 2023 Workshop); • 'DreamFusion: Text-to-3D using 2D Diffusion' (ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问