- 简介尽管视觉-语言预训练模型(VLM)在各种多模态理解任务中表现出色,但它们在细粒度音视频推理方面,特别是音视频问答(AVQA)方面的潜力仍然很少被探索。由于AVQA需要在区域级别进行视觉理解并与音频模态无缝集成,因此对于VLM来说,AVQA具有特定的挑战。以前基于VLM的AVQA方法仅使用CLIP作为特征编码器,但未充分利用其知识,并且像大多数AVQA方法一样,将音频和视频视为分开的实体,在双流框架中处理。本文提出了一种新的基于CLIP的目标感知单流(TASS)AVQA网络,利用预训练模型的图像-文本匹配知识,通过自然的音视频匹配特性来解决AVQA中的问题。它由两个关键组件组成:目标感知空间定位模块(TSG+)和单流联合时间定位模块(JTG)。具体而言,我们提出了一个TSG+模块,将CLIP模型的图像-文本匹配知识传递到我们的区域-文本匹配过程中,而无需相应的基础真值标签。此外,与先前仍需要额外的音视频融合模块的分离双流网络不同,JTG在简化的单流体系结构中统一了音频-视频融合和问题感知时间定位。它将音频和视频视为一个连贯的实体,并通过保留我们提出的跨模态同步(CMS)损失的时间相关性,进一步扩展了预训练的图像-文本知识到音频-文本匹配。在MUSIC-AVQA基准测试上进行的大量实验验证了我们提出的方法比现有最先进方法更有效。
- 图表
- 解决问题本论文旨在解决视听问题回答(AVQA)中的细粒度视觉理解和音频-视觉无缝集成的问题,提出了一种基于CLIP的目标感知单流(TASS)网络。
- 关键思路该论文的关键思路是使用预训练模型CLIP中的图像-文本匹配知识,通过音频-视觉匹配特征将其应用于AVQA,并提出了TSG+和JTG两个模块。
- 其它亮点论文的亮点包括使用TSG+模块将CLIP模型中的图像-文本匹配知识应用于区域-文本匹配过程,使用JTG模块将音频和视频作为一个整体来处理,并使用CMS损失扩展了预训练的图像-文本知识到音频-文本匹配。实验结果表明,该方法在MUSIC-AVQA基准测试上优于现有的最先进方法。
- 最近在这个领域中的相关研究包括基于CLIP的视觉语言预训练模型的应用,以及音频-视觉问题回答的其他方法,如基于双流的方法和基于注意力机制的方法。
沙发等你来抢
去评论
评论
沙发等你来抢