Hearing Anything Anywhere

2024年06月11日
  • 简介
    近年来,三维计算机视觉和计算机图形学取得了巨大进展,出现了许多可以将真实三维环境虚拟化的工具,适用于多种混合现实(XR)应用。然而,除了沉浸式视觉体验外,沉浸式听觉体验对我们对环境的整体感知同样重要。本文旨在仅给定大约12个房间脉冲响应(RIR)记录和场景的平面重建,即普通用户容易实现的设置下,重建任意环境的空间声学特征。为此,我们引入了DiffRIR,这是一个可解释的参数模型,包括声源方向性和表面反射率等场景重要声学特征的可微分RIR渲染框架。这使我们能够通过任何源音频在空间中合成新的听觉体验。为了评估我们的方法,我们在四个不同的真实环境中收集了RIR记录和音乐的数据集。我们展示了我们的模型在渲染未见位置的单声道和双声道RIR以及音乐方面优于最先进的基线,并学习到表征场景中声学特性的物理可解释参数。
  • 图表
  • 解决问题
    本论文旨在利用少量的房间脉冲响应(RIR)记录和场景平面重建,重建任意环境的空间声学特征,从而实现对声音的沉浸式体验。
  • 关键思路
    论文提出了DiffRIR,一种可微的RIR渲染框架,其中包括场景中显著声学特征的可解释参数模型,如声源方向性和表面反射率,可以用任何源音频在空间中合成新的听觉体验。
  • 其它亮点
    论文通过收集四个真实环境中的RIR记录和音乐数据集来评估方法,并表明该模型在渲染单声道和双声道RIR和音乐在未见过的位置上的表现优于现有的基线,并学习到了表征声源和场景表面声学特性的物理可解释参数。
  • 相关研究
    相关研究包括利用深度学习技术进行声学场景重建的工作,如使用卷积神经网络进行声学场景重建的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论