MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation

2025年06月27日
  • 简介
    音频驱动的人像动画生成技术通过音频信号从参考图像中合成逼真的视频,在实时生成高保真、时间连贯的动画方面面临重大挑战。虽然最近基于扩散模型的方法通过将音频整合到去噪过程中提高了生成质量,但它们依赖逐帧处理的UNet架构,导致延迟过高,并且在时间一致性上表现不足。本文提出了MirrorMe,这是一个基于LTX视频模型的实时可控框架。LTX是一种扩散Transformer模型,通过对视频在空间和时间上进行压缩,实现高效的潜空间去噪。为了克服LTX在压缩与语义保真度之间的权衡,我们提出了三项创新:1. 通过VAE编码图像拼接和自注意力机制引入参考身份信息,确保身份一致性;2. 设计了一个符合LTX时间结构的因果音频编码器及适配模块,实现音频与表情的精确同步;3. 提出了一种渐进式训练策略,结合近景面部训练、带面部掩码的半身像合成以及手部姿态控制,增强手势表达的可控性。在EMTD基准上的大量实验表明,MirrorMe在生成质量、口型同步精度和时间稳定性方面均达到当前最先进的水平。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决音频驱动肖像动画中实时生成高质量、时间一致性强的视频动画这一挑战性问题。现有基于扩散模型的方法虽然提升了生成质量,但由于采用逐帧UNet架构导致延迟高且时间一致性差。
  • 关键思路
    提出MirrorMe框架,基于LTX视频模型实现高效的空间和时间压缩,在潜空间进行去噪处理,并通过三种创新机制提升身份一致性、音频-表情同步性和手势控制能力。
  • 其它亮点
    1. 引入参考身份注入机制,通过VAE编码图像拼接与自注意力机制确保身份一致性 2. 设计因果音频编码器及适配模块,适配LTX的时间结构,实现精准的音频-表情同步 3. 采用渐进式训练策略,结合面部特写、半身合成与手势整合,增强控制性 4. 在EMTD Benchmark上实现了SOTA性能,包括画面质量、唇形同步精度和时间稳定性
  • 相关研究
    1. Audio-Driven Emotional Talking Face Generation with Adaptive Motion Patterns 2. Realistic Speech-Driven Facial Animation with Diffusion Models 3. Temporal Consistency Enhancement in Video Generation via Transformer-based Latent Space Modeling 4. High-Fidelity Talking Portrait Generation via Audio-Aware Diffusion Processes
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问