- 简介我们提出了一种新颖的方法,可以从单张图像中生成高质量、时空连贯的人类视频,并且可以在任意视角下查看。我们的框架结合了U-Net的准确条件注入和扩散变压器的全局关联捕捉能力,核心是级联的4D变压器架构,可以将注意力因子化到视角、时间和空间维度上,从而实现对4D空间的高效建模。通过向各自的变压器注入人类身份、相机参数和时间信号,可以实现精确的条件注入。为了训练这个模型,我们整理了一个多维数据集,包括图像、视频、多视角数据和3D/4D扫描,以及一个多维训练策略。我们的方法克服了基于GAN或基于UNet扩散模型的先前方法的局限性,这些方法在处理复杂的运动和视角变化时很困难。通过大量实验,我们展示了我们的方法合成逼真、连贯和自由视角的人类视频的能力,为虚拟现实和动画等领域的高级多媒体应用铺平了道路。我们的项目网站是https://human4dit.github.io。
- 图表
- 解决问题论文试图解决从单张图像生成高质量、时空连贯的人类视频的问题。这是否是一个新问题?
- 关键思路论文的关键思路是将U-Net和Diffusion Transformer相结合,采用级联的4D Transformer架构,通过跨视角、时间和空间维度进行注意力分配,实现精确的条件注入,从而有效地建模4D空间。相比当前领域的研究,这篇论文的思路有创新之处。
- 其它亮点论文通过策划多维数据集和多维训练策略来训练模型,并成功地生成了逼真、连贯、自由视角的人类视频。实验结果表明,该方法在复杂运动和视角变化方面优于基于GAN或UNet的扩散模型。此外,论文还提供了项目网站和开源代码,为虚拟现实和动画等领域的高级多媒体应用铺平了道路。
- 在这个领域中,最近的相关研究包括:《Deep Video Portraits》、《Everybody Dance Now》、《Liquid Warping GAN》等。
沙发等你来抢
去评论
评论
沙发等你来抢