VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

2025年04月02日
  • 简介
    从稀疏视角重建3D场景是一项极具挑战性的任务,因其本质上属于病态问题(ill-posed problem)。传统方法开发了专门的解决方案(例如几何正则化或前馈确定性模型)以缓解这一问题。然而,当输入视图之间的重叠极小且视觉信息不足时,这些方法仍会面临性能下降的问题。幸运的是,近期的视频生成模型展现出解决这一挑战的潜力,因为它们能够生成具有合理3D结构的视频片段。借助大规模预训练的视频扩散模型,一些开创性的研究开始探索视频生成先验的潜力,并尝试从稀疏视角创建3D场景。尽管取得了令人印象深刻的改进,但这些方法仍然受限于缓慢的推理速度和缺乏3D约束,导致效率低下以及与真实世界几何结构不一致的重建伪影。 在本文中,我们提出了VideoScene,通过提炼视频扩散模型实现一步生成3D场景,旨在构建一个高效且有效的工具,弥合从视频到3D的鸿沟。具体而言,我们设计了一种具备3D感知能力的跃迁流(leap flow)蒸馏策略,用以跳过耗时的冗余信息,并训练了一个动态去噪策略网络,以在推理过程中自适应地确定最优跃迁时间步长。大量实验表明,我们的VideoScene相较于先前的视频扩散模型,能够在更短时间内生成更优的3D场景结果,突显了其作为未来视频到3D应用高效工具的潜力。 项目页面:https://hanyang-21.github.io/VideoScene
  • 图表
  • 解决问题
    论文试图解决从稀疏视角恢复3D场景的问题,这是一个典型的病态问题(ill-posed problem),特别是在输入视图重叠较少且视觉信息不足的情况下,传统方法往往表现不佳。尽管视频生成模型在生成具有合理3D结构的视频方面显示出潜力,但其效率和几何约束能力仍有待提高。
  • 关键思路
    论文提出了一种名为VideoScene的方法,通过将大型预训练视频扩散模型的知识蒸馏到一个单步生成框架中,以实现高效且高质量的3D场景生成。具体而言,作者设计了一个3D感知的“跃迁流”蒸馏策略,用于跳过冗余信息,并引入动态去噪策略网络,自适应地确定最优推理时间步长。这种方法不仅提高了生成速度,还减少了重建伪影,使其更符合真实世界的几何结构。
  • 其它亮点
    1. VideoScene显著提升了3D场景生成的速度和质量,优于现有的视频扩散模型;2. 提出了3D感知的蒸馏策略和动态去噪政策网络,增强了模型的灵活性和效率;3. 实验验证了该方法在多种稀疏视图条件下的鲁棒性;4. 项目代码已开源,便于复现和进一步研究;5. 论文指出未来可以探索更多结合视频先验与3D约束的技术方向。
  • 相关研究
    近期相关研究包括:1. 使用几何正则化或前馈确定性模型的传统方法(如NeRF及其变体);2. 基于扩散模型的视频生成技术(如Text-to-Video Diffusion Models);3. 视频生成模型应用于3D重建的研究(如Video2NeRF)。一些相关论文标题为《Text-to-Video Synthesis with Cross-Frame Consistency》、《Diffusion Models Beat GANs on Image Synthesis》以及《Neural Radiance Fields for View Synthesis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论