生成逼真的人类动作音频对于许多应用非常重要,例如为电影或虚拟现实游戏创建音效。现有方法在训练期间隐含地假设视频和音频之间存在完全的对应关系,然而许多声音发生在屏幕之外,并且与视觉上的内容弱或没有对应关系,导致测试时出现无法控制的环境声音或幻觉。我们提出了一种新颖的环境感知音频生成模型AV-LDM。我们设计了一种新颖的音频调节机制,以学习在野外训练视频中将前景动作声音与环境背景声音分离开来。给定一个新的无声视频,我们的模型使用检索增强生成来创建与视觉内容在语义和时间上都匹配的音频。我们在两个野外视角视频数据集Ego4D和EPIC-KITCHENS上训练和评估了我们的模型,并介绍了Ego4D-Sounds——拥有120万个动作-音频对应关系的精选剪辑。我们的模型优于现有方法的一系列方法,允许控制环境声音的生成,甚至显示出推广到计算机图形游戏剪辑的前景。总的来说,我们的方法是第一个专注于观察到的视觉内容的视频到音频生成,尽管训练来自具有自然背景声音的未筛选剪辑。