Audio-Synchronized Visual Animation

简介

目前的视觉生成方法可以通过文本生成高质量的视频。然而，有效地控制对象动态仍然是一个挑战。本研究探索音频作为提示来生成时间同步的图像动画。我们介绍了音频同步视觉动画（ASVA）任务，该任务将静态图像动画化以展示运动动态，时间上由跨多个类别的音频片段引导。为此，我们从VGGSound中策划了AVSync15数据集，其中包含15个类别的视频，展示了同步的音频视觉事件。我们还提出了扩散模型AVSyncD，能够生成由音频引导的动态动画。广泛的评估验证了AVSync15作为同步生成的可靠基准，并展示了我们模型卓越的性能。我们进一步探索了AVSyncD在各种音频同步生成任务中的潜力，从生成没有基础图像的完整视频到用各种声音控制对象运动。我们希望我们建立的基准可以开辟可控的视觉生成新途径。项目网页上还有更多视频 https://lzhangbj.github.io/projects/asva/asva.html。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探索使用音频作为提示来生成时间同步的图像动画，以解决有效控制物体动态的挑战。
关键思路

论文提出了一种使用音频同步视觉动画（ASVA）的任务，通过音频片段跨多个类别来指导静态图像的动态演示，同时介绍了AVSync15数据集和AVSyncD扩散模型，能够生成由音频引导的动态动画。
其它亮点

论文介绍了AVSync15数据集，该数据集从VGGSound中策划出了具有15个类别的视频，介绍了AVSyncD扩散模型，该模型能够生成由音频引导的动态动画，并进行了广泛的评估，验证了AVSync15作为同步生成的可靠基准，并展示了该模型的卓越性能。论文还探讨了AVSyncD在各种音频同步生成任务中的潜力，从生成没有基础图像的完整视频到使用各种声音控制物体运动。
相关研究

最近的相关研究包括“Generative Adversarial Networks for Video Generation and Reconstruction”和“Video Generation from Text”等。

Audio-Synchronized Visual Animation

提问交流

提问交流