Localizing Events in Videos with Multimodal Queries

2024年06月14日
  • 简介
    视频理解是数字时代中至关重要的任务,但视频的动态和多事件特性使其处理起来需要大量的人力和计算资源。因此,针对语义查询给出特定事件的本地化在用户导向的应用程序(如视频搜索)和视频基础模型的学术研究中变得越来越重要。当前研究的一个显著限制是,语义查询通常是自然语言,描述了目标事件的语义。这种设置忽略了由图像和文本组成的多模态语义查询的潜力。为了解决这个问题,我们引入了一个新的基准 ICQ,用于通过多模态查询定位视频中的事件,以及一个新的评估数据集 ICQ-Highlight。我们的新基准旨在评估模型在给定包含参考图像(描述事件)和调整图像语义的细化文本的多模态语义查询下定位事件的能力。为了系统地评估模型性能,我们包括了4种参考图像样式和5种细化文本类型,使我们能够探索模型在不同领域的性能。我们提出了3种适应方法,以适应我们的新设置,并评估了10个先进的模型,从专业的到大规模的基础模型不等。我们认为,这个基准是探索视频事件本地化中多模态查询的一个初步步骤。
  • 图表
  • 解决问题
    本论文旨在解决视频事件定位中的一个限制,即当前的语义查询通常只是自然语言描述,而忽略了由图像和文本组成的多模态语义查询的潜力。
  • 关键思路
    本论文提出了一个新的基准测试ICQ,用于评估模型在多模态查询中定位事件的能力。该基准测试包括4种风格的参考图像和5种类型的细化文本,可以在不同领域中探索模型的性能。
  • 其它亮点
    本论文的亮点包括:提出了一个新的多模态查询基准测试ICQ,并提供了一个新的评估数据集ICQ-Highlight;提出了三种适应方法,用于将现有模型适应到新的多模态查询设置中;评估了10个最先进的模型,从专业化到大规模基础模型不等。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Temporal Modular Networks for Retrieving Complex Compositions in Videos》、《Video Retrieval via Multi-modal Contextual Memory Matching》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论