Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Changan Chen ,
Puyuan Peng ,
Ami Baid ,
Zihui Xue ,
Wei-Ning Hsu ,
David Harwath ,
Kristen Grauman
88
热度
2024年06月13日
  • 简介
    生成逼真的人类动作音频对于许多应用非常重要,例如为电影或虚拟现实游戏创建音效。现有方法在训练期间隐含地假设视频和音频之间存在完全的对应关系,然而许多声音发生在屏幕之外,并且与视觉上的内容弱或没有对应关系,导致测试时出现无法控制的环境声音或幻觉。我们提出了一种新颖的环境感知音频生成模型AV-LDM。我们设计了一种新颖的音频调节机制,以学习在野外训练视频中将前景动作声音与环境背景声音分离开来。给定一个新的无声视频,我们的模型使用检索增强生成来创建与视觉内容在语义和时间上都匹配的音频。我们在两个野外视角视频数据集Ego4D和EPIC-KITCHENS上训练和评估了我们的模型,并介绍了Ego4D-Sounds——拥有120万个动作-音频对应关系的精选剪辑。我们的模型优于现有方法的一系列方法,允许控制环境声音的生成,甚至显示出推广到计算机图形游戏剪辑的前景。总的来说,我们的方法是第一个专注于观察到的视觉内容的视频到音频生成,尽管训练来自具有自然背景声音的未筛选剪辑。
  • 图表
  • 解决问题
    如何在视频中生成真实的人类行为音频是许多应用程序的重要问题,但现有的方法在训练过程中隐含地假设视频和音频完全对应,而许多声音发生在屏幕外,与视觉内容没有强关联,导致测试时出现无法控制的背景声音或幻觉。本文提出了一种新颖的环境感知音频生成模型AV-LDM,通过研究新型的音频调节机制,学习从野外训练视频中分离前景行为声音和背景环境声音。给定一个新的无声视频,我们的模型使用检索增强生成来创建与视觉内容在语义和时间上匹配的音频。我们在两个野外自我中心视频数据集Ego4D和EPIC-KITCHENS上进行了训练和评估,并介绍了Ego4D-Sounds-120万个带有动作音频对应关系的精选剪辑。我们的模型优于一系列现有方法,可以控制环境声音的生成,甚至显示出对计算机图形游戏剪辑的泛化潜力。总体而言,我们的方法是第一个专注于观察到的视觉内容的视频到音频生成,尽管训练自然背景声音的未筛选剪辑。
  • 关键思路
    本文提出了一种新颖的环境感知音频生成模型AV-LDM,通过研究新型的音频调节机制,学习从野外训练视频中分离前景行为声音和背景环境声音。给定一个新的无声视频,我们的模型使用检索增强生成来创建与视觉内容在语义和时间上匹配的音频。
  • 其它亮点
    本文提出的AV-LDM模型在两个野外自我中心视频数据集Ego4D和EPIC-KITCHENS上进行了训练和评估,并介绍了Ego4D-Sounds-120万个带有动作音频对应关系的精选剪辑。该模型优于一系列现有方法,可以控制环境声音的生成,甚至显示出对计算机图形游戏剪辑的泛化潜力。本文方法是第一个专注于观察到的视觉内容的视频到音频生成,尽管训练自然背景声音的未筛选剪辑。
  • 相关研究
    最近的相关研究包括:1)“Unsupervised Sound Separation using Motion for Egocentric Videos”,2)“Audio-Visual Scene-Aware Dialog”,3)“Audio-Visual Event Localization in Unconstrained Videos”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论