- 简介目前的视觉生成方法可以通过文本生成高质量的视频。然而,有效地控制对象动态仍然是一个挑战。本研究探索音频作为提示来生成时间同步的图像动画。我们介绍了音频同步视觉动画(ASVA)任务,该任务将静态图像动画化以展示运动动态,时间上由跨多个类别的音频片段引导。为此,我们从VGGSound中策划了AVSync15数据集,其中包含15个类别的视频,展示了同步的音频视觉事件。我们还提出了扩散模型AVSyncD,能够生成由音频引导的动态动画。广泛的评估验证了AVSync15作为同步生成的可靠基准,并展示了我们模型卓越的性能。我们进一步探索了AVSyncD在各种音频同步生成任务中的潜力,从生成没有基础图像的完整视频到用各种声音控制对象运动。我们希望我们建立的基准可以开辟可控的视觉生成新途径。项目网页上还有更多视频 https://lzhangbj.github.io/projects/asva/asva.html。
-
- 图表
- 解决问题论文旨在探索使用音频作为提示来生成时间同步的图像动画,以解决有效控制物体动态的挑战。
- 关键思路论文提出了一种使用音频同步视觉动画(ASVA)的任务,通过音频片段跨多个类别来指导静态图像的动态演示,同时介绍了AVSync15数据集和AVSyncD扩散模型,能够生成由音频引导的动态动画。
- 其它亮点论文介绍了AVSync15数据集,该数据集从VGGSound中策划出了具有15个类别的视频,介绍了AVSyncD扩散模型,该模型能够生成由音频引导的动态动画,并进行了广泛的评估,验证了AVSync15作为同步生成的可靠基准,并展示了该模型的卓越性能。论文还探讨了AVSyncD在各种音频同步生成任务中的潜力,从生成没有基础图像的完整视频到使用各种声音控制物体运动。
- 最近的相关研究包括“Generative Adversarial Networks for Video Generation and Reconstruction”和“Video Generation from Text”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流