Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation

2024年06月13日
  • 简介
    利用语音音频输入驱动的肖像图像动画领域,在生成逼真和动态肖像方面已经取得了显著进展。本研究探究了在扩散方法框架内同步面部动作和创建视觉上吸引人、时间上一致的动画的复杂性。我们的创新方法摆脱了依赖于中间面部表示的参数模型的传统范式,采用端到端的扩散范式,并引入分层音频驱动的视觉合成模块,以增强音频输入和视觉输出之间的对齐精度,包括唇部、表情和姿势运动。我们提出的网络架构无缝地集成了基于扩散的生成模型、基于UNet的去噪器、时间对齐技术和参考网络。所提出的分层音频驱动的视觉合成提供了对表情和姿势多样性的自适应控制,实现了更有效的个性化定制。通过综合评估,包括定性和定量分析,我们的方法在图像和视频质量、唇部同步精度和动作多样性方面都表现出明显的改进。更多可视化和源代码访问信息请参见:https://fudan-generative-vision.github.io/hallo。
  • 图表
  • 解决问题
    本论文旨在解决面部图像动画生成中的音频驱动问题,即如何在扩散模型的框架下实现面部运动和音频输入的同步,并创建视觉上吸引人、时间上一致的动画。这是一个新问题。
  • 关键思路
    本文提出了一种创新的方法,采用端到端的扩散模型,引入分层音频驱动的视觉合成模块,以增强音频输入和视觉输出之间的对齐精度,包括唇部、表情和姿势运动。该方法无缝集成了扩散生成模型、基于UNet的降噪器、时间对齐技术和参考网络。
  • 其它亮点
    本文的亮点包括:(1)提出了一种新的音频驱动的面部图像动画生成方法,能够实现更好的唇部同步精度和动作多样性;(2)通过定量和定性分析,证明了该方法在图像和视频质量、唇部同步精度和运动多样性方面的显著提升;(3)提供了可视化和源代码的访问链接。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》、《Speech-Driven Facial Animation Using Temporal GANs》、《Towards High-Fidelity Non-parallel Voice Conversion with GAN》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论