EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

简介

利用音频输入推动肖像图像动画领域取得了显著进展，生成了逼真动态的肖像。传统方法仅限于利用音频或面部关键点来将图像转化为视频，虽然可以得到令人满意的结果，但存在一些问题。例如，仅利用音频驱动的方法有时可能不稳定，因为音频信号相对较弱，而仅利用面部关键点驱动的方法虽然更稳定，但由于对关键点信息的过度控制可能导致不自然的结果。在解决上述挑战的过程中，本文介绍了一种新的方法，我们称之为EchoMimic。EchoMimic同时使用音频和面部关键点进行训练。通过实施一种新的训练策略，EchoMimic能够生成肖像视频，不仅可以单独使用音频和面部关键点，还可以通过音频和选定的面部关键点的组合来生成。EchoMimic已在各种公共数据集和我们收集的数据集中进行了全面比较，展示了在定量和定性评估方面的优异表现。额外的可视化和源代码访问可在EchoMimic项目页面中找到。
图表
解决问题

论文旨在解决利用音频和面部关键点生成逼真和动态肖像视频的问题。传统方法限制于利用音频或面部关键点驱动图像生成视频，但存在一些问题。
关键思路

论文提出了一种名为EchoMimic的新方法，该方法同时使用音频和面部关键点进行训练，并通过实现一种新的训练策略来生成肖像视频。EchoMimic不仅可以通过音频和面部关键点单独生成肖像视频，还可以通过音频和选定的面部关键点的组合来生成肖像视频。
其它亮点

论文在多个公共数据集和自己收集的数据集上进行了全面比较，展示了在定量和定性评估中优异的性能。此外，论文提供了附加的可视化和源代码。
相关研究

最近相关的研究包括基于音频的图像生成和基于面部关键点的图像生成。

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

评论