- 简介肖像动画的目标是从单个源图像中合成逼真的视频,使用它作为外观参考,并从驱动视频、音频、文本或生成中获取运动(即面部表情和头部姿势)。我们不是采用主流的扩散方法,而是探索和扩展了基于隐式关键点的框架的潜力,该框架有效地平衡了计算效率和可控性。在此基础上,我们开发了一个名为LivePortrait的视频驱动肖像动画框架,重点关注更好的泛化性、可控性和实用性。为了增强生成质量和泛化能力,我们将训练数据扩大到约6900万高质量帧,采用混合图像-视频训练策略,升级网络架构,并设计更好的运动转换和优化目标。此外,我们发现紧凑的隐式关键点可以有效地表示一种混合形状,并精心设计了一个拼接和两个重定向模块,利用小型MLP来增强可控性,计算开销可以忽略不计。实验结果表明,即使与扩散方法相比,我们的框架也非常有效。在RTX 4090 GPU上,生成速度显著达到了12.8ms。推理代码和模型可在https://github.com/KwaiVGI/LivePortrait上获得。
- 图表
- 解决问题本论文旨在通过单一源图像和驱动视频、音频或文本生成逼真的视频人像动画,解决如何在实际应用中更好地实现生成质量、可控性和效率的问题。
- 关键思路本论文采用隐式关键点的框架,通过扩大训练数据、升级网络架构、设计更好的运动转换和优化目标等方法,实现更好的生成质量和泛化能力,并提出了缝合和两个重定向模块来增强可控性。
- 其它亮点实验结果表明,本论文的框架在生成速度和生成质量方面都有显著提升,甚至比扩散方法更有效。论文提供了开源代码和模型,并使用了大量的高质量数据集进行训练。
- 在这个领域中,最近的相关研究包括《Few-shot Video-to-Video Synthesis》、《Deep Video Portraits》等。
沙发等你来抢
去评论
评论
沙发等你来抢