Unveiling and Mitigating Bias in Audio Visual Segmentation

2024年07月23日
  • 简介
    社区研究人员开发了一系列高级音视频分割模型,旨在提高声音物体掩膜的质量。虽然这些模型创建的掩膜可能一开始看起来合理,但它们偶尔会展现出不正确的基础逻辑异常。我们认为这是由于现实世界固有的偏好和分布作为比复杂的音视频基础更简单的信号来学习,导致重要的模态信息被忽略。通常,异常现象往往是复杂的,不能被系统地直接观察到。在本研究中,我们通过适当的合成数据,首次尝试将现象分类和分析为两种类型,即“音频启动偏差”和“视觉先验”,根据异常来源。对于音频启动偏差,为了增强音频对不同强度和语义的敏感性,专门为音频设计了一个感知模块,感知潜在的语义信息,并将信息融合到一组有限的查询中,即活动查询。此外,与此类活动查询相关的交互机制在变压器解码器中进行了定制,以适应音频语义之间的交互调节需求。对于视觉先验,探索了多种对比训练策略,通过引入有偏分支来优化模型,而无需改变模型的结构。在实验过程中,观察表明现有模型的偏差存在并产生了影响。最后,通过对AVS基准的实验评估,我们展示了我们的方法处理两种偏差的有效性,在所有三个子集中实现了竞争性的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决音频-视觉分割模型中出现的异常问题,即错误的基础逻辑。作者将这些异常归为两类,即“音频启动偏差”和“视觉先验”。
  • 关键思路
    为了解决这些异常问题,本文提出了两种解决方案。对于“音频启动偏差”,作者提出了一个专门的音频感知模块,通过将信息集成到一组有限的查询中,即“活跃查询”,来增强音频对不同强度和语义的敏感性。对于“视觉先验”,作者探索了多种对比训练策略,通过引入一个有偏向性的分支来优化模型,而不改变模型的结构。
  • 其它亮点
    本文的亮点包括使用合适的合成数据对异常现象进行分类和分析,提出了两种解决方案来处理异常问题,实验结果表明这两种方法在三个子集上都取得了竞争性的性能。实验使用了AVS基准测试数据集,作者还探索了多种对比训练策略。本文的工作可以为音频-视觉分割模型中异常问题的解决提供参考。
  • 相关研究
    在这个领域中,最近的相关研究包括“Audio-Visual Scene-Aware Dialog”和“Audio-Visual Object Counting”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问