- 简介我们提出了VLOGGER,这是一种从单个人物输入图像中生成音频驱动人类视频的方法,它建立在最近生成扩散模型的成功基础上。我们的方法包括:1)一种随机的人类到3D运动扩散模型;2)一种新颖的基于扩散的架构,它通过空间和时间控制来增强文本到图像模型。这支持生成具有可变长度的高质量视频,可以通过人脸和身体的高级表示轻松控制。与以前的工作不同,我们的方法不需要为每个人进行训练,不依赖于面部检测和裁剪,生成完整的图像(不仅仅是脸部或嘴唇),并考虑到广泛的场景(例如可见的躯干或不同的主体身份),这对于正确合成交流的人类至关重要。我们还策划了MENTOR,这是一个新的、多样化的数据集,具有3D姿势和表情注释,比以前的数据集大一个数量级(800,000个身份),并带有动态手势,我们在此上训练和检验我们的主要技术贡献。VLOGGER在三个公共基准测试中表现优于最先进的方法,考虑到图像质量、身份保护和时间一致性,同时生成上半身手势。我们分析了VLOGGER在多个多样性指标方面的表现,显示出我们的架构选择和使用MENTOR有利于训练公正和无偏差的大规模模型。最后,我们展示了在视频编辑和个性化方面的应用。
- 图表
- 解决问题VLOGGER旨在通过单个人物图像生成高质量的可变长度视频,解决了先前方法需要为每个人物进行训练,依赖面部检测和裁剪,只生成面部或嘴唇的图像等问题。
- 关键思路VLOGGER的关键思路是使用随机的人体到3D运动扩散模型和一种新颖的基于扩散的架构,结合空间和时间控制,支持通过高级人脸和身体表示轻松控制可变长度的高质量视频生成。
- 其它亮点VLOGGER在三个公共基准测试中表现优异,考虑到图像质量、身份保存和时间一致性,同时生成上半身手势。使用了新的数据集MENTOR进行训练和分析,该数据集比以前的数据集大一个数量级,并具有动态手势。
- 最近的相关研究包括:1)基于深度学习的视频生成;2)基于扩散模型的图像生成;3)基于人体姿势的图像生成。
沙发等你来抢
去评论
评论
沙发等你来抢