SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

简介

产生结合视觉和听觉感官体验对于沉浸式内容的消费至关重要。最近神经生成模型的进展使得跨多种模态，如图像、文本、语音和视频，创造高分辨率内容成为可能。尽管取得了成功，但在生成与视觉内容相辅相成的高质量空间音频方面仍存在重大差距。此外，当前的音频生成模型在生成自然音频、语音或音乐方面表现出色，但在整合沉浸式体验所需的空间音频线索方面表现不足。在这项工作中，我们介绍了SEE-2-SOUND，这是一种零样本方法，将任务分解为(1)识别视觉感兴趣区域；(2)在3D空间中定位这些元素；(3)为每个元素生成单声道音频；(4)将它们整合到空间音频中。使用我们的框架，我们展示了为高质量视频、图像和互联网动态图像以及学习方法生成的媒体生成空间音频的引人注目结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何生成高质量的空间音频，以补充生成的视觉内容，是该论文试图解决的问题。而当前音频生成模型在集成空间音频方面仍然存在不足。
关键思路

该论文提出了SEE-2-SOUND，一种零样本方法，将任务分解为（1）识别视觉感兴趣区域；（2）在3D空间中定位这些元素；（3）为每个元素生成单声道音频；（4）将它们集成到空间音频中。
其它亮点

该论文展示了使用SEE-2-SOUND框架为高质量视频、图像、互联网动态图像以及由学习方法生成的媒体生成空间音频的引人注目结果。实验使用的数据集和开源代码也值得关注。
相关研究

最近在这个领域中，还有一些相关研究，例如“Generating Spatial Audio with End-to-End Generative Adversarial Networks”和“Deep Audio-Visual Embedding for Video Localization”。

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

提问交流

提问交流