VideoNeuMat: Neural Material Extraction from Generative Video Models

向作者提问

NEW

简介

为三维渲染生成照片级真实的材质，需要极高的艺术造诣。虽然生成式模型有望辅助材质创作，但目前受限于高质量训练数据的严重匮乏。尽管近期的视频生成模型能够轻松合成逼真的材质外观，但其中蕴含的材质知识却与几何形状和光照条件深度耦合、难以解耦。本文提出 VideoNeuMat——一种两阶段处理流程，旨在从视频扩散模型中提取可复用的神经材质资产。首先，我们对一个大型视频生成模型（Wan 2.1，参数量140亿）进行微调，使其在受控的相机运动轨迹与光照变化轨迹下生成材质样本视频；这一过程实质上构建了一个“虚拟双向反射分布函数测量仪”（virtual gonioreflectometer），既完整保留了原模型所具备的材质真实感，又使其学会遵循结构化的测量范式。其次，我们基于一个经微调的小型视频骨干网络（Wan 1.3B）构建大型重建模型（LRM），并利用前述生成的视频帧对其进行训练，从而从视频中重建出紧凑、高效的神经材质表示。仅需输入17帧生成的视频帧，我们的LRM即可通过单次前向推理，预测出具备泛化能力的神经材质参数——这些参数可自然适配全新的观察视角与光照条件。最终所得的神经材质，在真实感与多样性两方面均显著超越现有有限的合成训练数据，有力证明：源自互联网规模视频模型的材质先验知识，能够成功迁移并封装为独立、通用、可复用的神经三维资产。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有生成式模型虽能隐式建模逼真材质外观，但其材质知识与几何、光照、运动等强耦合，难以解耦为可复用、可控、泛化的神经材质资产；同时，高质量、多角度、多光照的材质视频数据稀缺，制约了神经材质的监督训练。
关键思路

提出VideoNeuMat两阶段范式：第一阶段将大参数视频扩散模型（Wan 2.1 14B）微调为可控‘虚拟光度计’，生成遵循标准球面轨迹（固定相机/光源运动）的材质样本视频；第二阶段用轻量级微调版LRM（基于Wan 1.3B）从仅17帧视频单次前向推理中重建紧凑、可编辑、光照-视角泛化的神经材质表示（如SDF+BRDF参数化），实现知识从黑盒视频生成器到白盒3D资产的无监督蒸馏。
其它亮点

首次实现从互联网规模视频生成模型中高效蒸馏出物理一致、可编辑、零样本泛化的神经材质；仅需17帧合成视频即可完成单次推理重建，远超传统多视图/多光照采集成本；在无真实材质视频监督下，生成材质在真实感、多样性及Novel View/Lighting泛化上显著超越Synthetic Dataset（如MaterialNet）训练的基线；方法完全基于生成视频，无需真实采集或标注；论文未提及开源代码，数据亦为合成生成，暂无公开数据集。
相关研究

NeRF++: Neural Radiance Fields in the Wild (CVPR 2022); Material Diffusion: Learning to Generate Physically-Based Materials from Text (SIGGRAPH Asia 2023); GANverse3D: Unlocking Generalizable 3D-aware Generation from 2D GANs (ICCV 2023); NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction (NeurIPS 2021); VideoDiffusion: Text-to-Video Diffusion Models (ICML 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问