OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation

2024年05月10日
  • 简介
    将单张图片转换为可编辑的动态3D模型并生成视频是单张图像到3D表示或图像的3D重建研究领域中的新方向和变革。与原始的神经辐射场相比,高斯喷洒在隐式3D重建方面表现出了其优势。随着技术和原理的快速发展,人们尝试使用稳定的扩散模型来生成带有文本指令的目标模型。然而,使用普通的隐式机器学习方法很难获得精确的动作控制,而且很难生成长内容和语义连续的3D视频。为了解决这个问题,我们提出了OneTo3D,一种方法和理论,用于使用单个图像生成可编辑的3D模型并生成目标语义连续的无限时长3D视频。我们使用普通的基本高斯喷洒模型从单张图像生成3D模型,这需要更少的视频内存和计算机计算能力。随后,我们设计了一种自动生成和自适应绑定机制,用于物体骨骼。结合我们提出的可重新编辑的动作分析和控制算法,我们可以实现比SOTA项目更好的性能,在构建3D模型精确动作控制和生成具有输入文本指令的稳定语义连续的无限时长3D视频方面。在这里,我们将分析详细的实现方法和理论分析,并提出相关比较和结论。该项目代码是开源的。
  • 图表
  • 解决问题
    论文试图提出一种新的方法OneTo3D,通过一张单独的图片生成可编辑的3D模型,并且生成目标语义连续的3D视频。该方法解决了使用传统隐式机器学习方法难以精确控制动作和生成长内容和语义连续的3D视频的问题。
  • 关键思路
    该论文的关键思路是使用基本的高斯喷洒模型从单张图片生成3D模型,并设计了自适应绑定机制和可编辑的动作分析和控制算法,以实现比现有技术更好的3D模型动作控制和生成稳定的语义连续的3D视频。
  • 其它亮点
    该论文的亮点包括自适应绑定机制和可编辑的动作分析和控制算法的设计,以及使用较少的视频内存和计算能力生成3D模型的基本高斯喷洒模型。论文使用了开源代码,实验设计合理,实现了比现有技术更好的3D模型动作控制和生成稳定的语义连续的3D视频。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如基于神经辐射场的隐式3D重建方法和使用稳定扩散模型生成目标模型的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论