MIMOSA: Human-AI Co-Creation of Computational Spatial Audio Effects on Videos

简介

空间音频为观众提供了更加身临其境的视频消费体验；然而，创建和编辑空间音频往往需要昂贵的专业设备和技能，给业余视频创作者带来了高门槛。我们提出了MIMOSA，一种人工智能协作创作工具，使业余用户能够计算生成和操作空间音频效果。对于只有单声道或立体声音频的视频，MIMOSA自动将每个声源与视觉场景中相应的音响对象联系起来，并使用户进一步验证和修复音响对象位置上的错误。用户还可以通过灵活地操纵声源位置和创造性地定制音频效果来增强空间音频效果。MIMOSA的设计展示了一种人工智能协作方法，它不使用最先进的端到端“黑匣子”机器学习模型，而是使用多步骤的管道，将其可解释的中间结果与用户的工作流程对齐。一项由15名参与者进行的实验室用户研究证明了MIMOSA在与用户合作创建沉浸式空间音频效果方面的可用性、有用性、表现力和能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何让业余视频制作者也能够生成和编辑空间音频效果？
关键思路

提出了一个人工智能协作工具MIMOSA，通过计算生成和操作空间音频效果，让业余用户也能够创造出更具沉浸感的视频体验。
其它亮点

MIMOSA可以自动将声音源与视觉场景中的相应声音对象联系起来，并让用户灵活地操纵声源位置和自定义音频效果。该工具使用可解释的中间结果与用户的工作流程对齐，具有较好的可用性、有用性和表现力。实验结果表明，MIMOSA能够与用户协作创建出沉浸式的空间音频效果。
相关研究

最近的相关研究包括：DeepSBD，Neural Re-Rendering of Humans from a Single Image，Deep Interactive Object Selection。

MIMOSA: Human-AI Co-Creation of Computational Spatial Audio Effects on Videos

提问交流

提问交流