- 简介产生结合视觉和听觉感官体验对于沉浸式内容的消费至关重要。最近神经生成模型的进展使得跨多种模态,如图像、文本、语音和视频,创造高分辨率内容成为可能。尽管取得了成功,但在生成与视觉内容相辅相成的高质量空间音频方面仍存在重大差距。此外,当前的音频生成模型在生成自然音频、语音或音乐方面表现出色,但在整合沉浸式体验所需的空间音频线索方面表现不足。在这项工作中,我们介绍了SEE-2-SOUND,这是一种零样本方法,将任务分解为(1)识别视觉感兴趣区域;(2)在3D空间中定位这些元素;(3)为每个元素生成单声道音频;(4)将它们整合到空间音频中。使用我们的框架,我们展示了为高质量视频、图像和互联网动态图像以及学习方法生成的媒体生成空间音频的引人注目结果。
-
- 图表
- 解决问题如何生成高质量的空间音频,以补充生成的视觉内容,是该论文试图解决的问题。而当前音频生成模型在集成空间音频方面仍然存在不足。
- 关键思路该论文提出了SEE-2-SOUND,一种零样本方法,将任务分解为(1)识别视觉感兴趣区域;(2)在3D空间中定位这些元素;(3)为每个元素生成单声道音频;(4)将它们集成到空间音频中。
- 其它亮点该论文展示了使用SEE-2-SOUND框架为高质量视频、图像、互联网动态图像以及由学习方法生成的媒体生成空间音频的引人注目结果。实验使用的数据集和开源代码也值得关注。
- 最近在这个领域中,还有一些相关研究,例如“Generating Spatial Audio with End-to-End Generative Adversarial Networks”和“Deep Audio-Visual Embedding for Video Localization”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流