Audio-Synchronized Visual Animation

2024年03月08日
  • 简介
    目前的视觉生成方法可以通过文本生成高质量的视频。然而,有效地控制对象动态仍然是一个挑战。本研究探索音频作为提示来生成时间同步的图像动画。我们介绍了音频同步视觉动画(ASVA)任务,该任务将静态图像动画化以展示运动动态,时间上由跨多个类别的音频片段引导。为此,我们从VGGSound中策划了AVSync15数据集,其中包含15个类别的视频,展示了同步的音频视觉事件。我们还提出了扩散模型AVSyncD,能够生成由音频引导的动态动画。广泛的评估验证了AVSync15作为同步生成的可靠基准,并展示了我们模型卓越的性能。我们进一步探索了AVSyncD在各种音频同步生成任务中的潜力,从生成没有基础图像的完整视频到用各种声音控制对象运动。我们希望我们建立的基准可以开辟可控的视觉生成新途径。项目网页上还有更多视频 https://lzhangbj.github.io/projects/asva/asva.html。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探索使用音频作为提示来生成时间同步的图像动画,以解决有效控制物体动态的挑战。
  • 关键思路
    论文提出了一种使用音频同步视觉动画(ASVA)的任务,通过音频片段跨多个类别来指导静态图像的动态演示,同时介绍了AVSync15数据集和AVSyncD扩散模型,能够生成由音频引导的动态动画。
  • 其它亮点
    论文介绍了AVSync15数据集,该数据集从VGGSound中策划出了具有15个类别的视频,介绍了AVSyncD扩散模型,该模型能够生成由音频引导的动态动画,并进行了广泛的评估,验证了AVSync15作为同步生成的可靠基准,并展示了该模型的卓越性能。论文还探讨了AVSyncD在各种音频同步生成任务中的潜力,从生成没有基础图像的完整视频到使用各种声音控制物体运动。
  • 相关研究
    最近的相关研究包括“Generative Adversarial Networks for Video Generation and Reconstruction”和“Video Generation from Text”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问