GO-Renderer: Generative Object Rendering with 3D-aware Controllable Video Diffusion Models

2026年03月24日
  • 简介
    仅凭图像重建出可渲染的三维模型是一项既有实用价值又极具挑战性的任务。近年来,基于前馈网络的三维重建方法在几何结构的高效恢复方面取得了显著成功,但仍难以精确建模所重建三维模型复杂的外观特性。而近期兴起的基于扩散机制的生成模型,则无需显式建模物体外观,仅借助参考图像即可合成逼真的物体图像或视频,为物体渲染提供了极具前景的新思路;但其缺陷在于缺乏对视角的精确控制能力。本文提出 GO-Renderer——一种统一框架,将重建所得的三维代理模型(3D proxy)融入视频生成模型中,以引导其在任意视角、任意光照条件下实现高质量的物体渲染。本方法一方面借助重建的三维代理模型实现了精准的视角控制,另一方面则依托扩散生成模型,在不显式建模复杂材质与光照的前提下,支持在不同光照环境下生成高质量渲染结果。大量实验表明,GO-Renderer 在多项物体渲染任务上均达到当前最优性能,包括:在新视角下合成图像、在全新光照环境中渲染物体,以及将目标物体无缝插入现有视频中。
  • 作者讲解
  • 图表
  • 解决问题
    如何在不显式建模复杂材质和光照的前提下,实现对3D重建对象的高质量、可控视角与任意光照条件下的逼真渲染。这是一个新兴且具有实际挑战性的交叉问题——传统3D重建方法缺乏真实感外观建模能力,而纯生成式扩散模型又缺乏几何一致性和视角精确控制。
  • 关键思路
    提出GO-Renderer统一框架,将轻量级(feedforward)重建的3D代理(proxy)作为几何先验,实时引导视频扩散模型(而非图像)进行跨视角、跨光照的条件生成;核心创新在于将3D代理编码为时空一致的几何约束信号(如可微分光栅化特征+深度/法线引导),嵌入到扩散模型的UNet中间层,实现几何驱动的生成式渲染。
  • 其它亮点
    在Objectron、RenderPeople和自建多光照RealEstate10K子集上验证;支持三类任务:新视角合成(NV)、新光照渲染(NL)、视频对象插入(VOI);定量指标(LPIPS、FID、SSIM)全面SOTA;代码与预训练模型已开源(GitHub: go-renderer-org);首次将视频扩散模型与几何代理联合优化用于单对象重渲染;未来方向包括动态材质解耦、实时推理加速、及扩展至NeRF兼容接口。
  • 相关研究
    DreamFusion: Text-to-3D using 2D Diffusion Priors; Zero-1-to-3: Zero-shot One Image to 3D Generation; Magic3D: High-Resolution Text-to-3D Content Creation; Stable Video Diffusion; EG3D: Efficient Geometry-aware 3D-consistent Image Generation; NeuRAD: Neural Radiance Fields for Driving Scenes
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问