VideoNeuMat: Neural Material Extraction from Generative Video Models

2026年02月06日
  • 简介
    为三维渲染生成照片级真实的材质,需要极高的艺术造诣。虽然生成式模型有望辅助材质创作,但目前受限于高质量训练数据的严重匮乏。尽管近期的视频生成模型能够轻松合成逼真的材质外观,但其中蕴含的材质知识却与几何形状和光照条件深度耦合、难以解耦。本文提出 VideoNeuMat——一种两阶段处理流程,旨在从视频扩散模型中提取可复用的神经材质资产。首先,我们对一个大型视频生成模型(Wan 2.1,参数量140亿)进行微调,使其在受控的相机运动轨迹与光照变化轨迹下生成材质样本视频;这一过程实质上构建了一个“虚拟双向反射分布函数测量仪”(virtual gonioreflectometer),既完整保留了原模型所具备的材质真实感,又使其学会遵循结构化的测量范式。其次,我们基于一个经微调的小型视频骨干网络(Wan 1.3B)构建大型重建模型(LRM),并利用前述生成的视频帧对其进行训练,从而从视频中重建出紧凑、高效的神经材质表示。仅需输入17帧生成的视频帧,我们的LRM即可通过单次前向推理,预测出具备泛化能力的神经材质参数——这些参数可自然适配全新的观察视角与光照条件。最终所得的神经材质,在真实感与多样性两方面均显著超越现有有限的合成训练数据,有力证明:源自互联网规模视频模型的材质先验知识,能够成功迁移并封装为独立、通用、可复用的神经三维资产。
  • 作者讲解
  • 图表
  • 解决问题
    现有生成式模型虽能隐式建模逼真材质外观,但其材质知识与几何、光照、运动等强耦合,难以解耦为可复用、可控、泛化的神经材质资产;同时,高质量、多角度、多光照的材质视频数据稀缺,制约了神经材质的监督训练。
  • 关键思路
    提出VideoNeuMat两阶段范式:第一阶段将大参数视频扩散模型(Wan 2.1 14B)微调为可控‘虚拟光度计’,生成遵循标准球面轨迹(固定相机/光源运动)的材质样本视频;第二阶段用轻量级微调版LRM(基于Wan 1.3B)从仅17帧视频单次前向推理中重建紧凑、可编辑、光照-视角泛化的神经材质表示(如SDF+BRDF参数化),实现知识从黑盒视频生成器到白盒3D资产的无监督蒸馏。
  • 其它亮点
    首次实现从互联网规模视频生成模型中高效蒸馏出物理一致、可编辑、零样本泛化的神经材质;仅需17帧合成视频即可完成单次推理重建,远超传统多视图/多光照采集成本;在无真实材质视频监督下,生成材质在真实感、多样性及Novel View/Lighting泛化上显著超越Synthetic Dataset(如MaterialNet)训练的基线;方法完全基于生成视频,无需真实采集或标注;论文未提及开源代码,数据亦为合成生成,暂无公开数据集。
  • 相关研究
    NeRF++: Neural Radiance Fields in the Wild (CVPR 2022); Material Diffusion: Learning to Generate Physically-Based Materials from Text (SIGGRAPH Asia 2023); GANverse3D: Unlocking Generalizable 3D-aware Generation from 2D GANs (ICCV 2023); NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction (NeurIPS 2021); VideoDiffusion: Text-to-Video Diffusion Models (ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问