Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

2024年03月21日
  • 简介
    本文受到人类视觉知觉生物学中活动-静默和持续活动机制的启发,设计了一个统一的静态和动态网络(UniSDNet),以在跨模态环境中学习视频和文本/音频查询之间的语义关联,实现高效的视频定位。对于静态建模,作者设计了一种新颖的残差结构(ResMLP),以增强视频片段和查询之间的全局综合交互,实现更有效的语义增强/补充。对于动态建模,作者有效地利用了网络设计中持续活动机制的三个特征,以更好地理解视频上下文。具体而言,作者基于2D稀疏时间掩蔽构建了一个扩散连接的视频剪辑图,以反映“短期效应”关系。作者创新地将时间距离和相关性视为联合“辅助证据线索”,并设计了多核时间高斯滤波器将上下文线索扩展到高维空间,模拟“复杂的视觉知觉”,然后在消息传递阶段对邻近剪辑节点进行元素级过滤卷积操作,最终生成和排名候选提案。UniSDNet适用于自然语言视频定位(NLVG)和口语语言视频定位(SLVG)任务。UniSDNet在三个广泛使用的NLVG数据集以及三个SLVG数据集上实现了SOTA性能,例如在ActivityNet Captions上报告了38.88% R@1,IoU@0.7的新记录,在TACoS上报告了40.26% R@1,IoU@0.5的新记录。为了促进这一领域的发展,作者为SLVG任务收集了两个新数据集(Charades-STA Speech和TACoS Speech)。同时,UniSDNet的推理速度比强大的多查询基准快1.56倍。代码可在https://github.com/xian-sh/UniSDNet获得。
  • 图表
  • 解决问题
    本论文旨在解决跨模态环境下视频 grounding 的问题,即如何学习视频和文本/音频查询之间的语义关联。
  • 关键思路
    该论文提出了一个统一的静态和动态网络(UniSDNet)来实现视频 grounding,其中静态建模采用了残差结构(ResMLP),动态建模则利用了人类视觉感知生物学中的活动-静默和持久活动机制。具体来说,它构建了一个基于二维稀疏时间掩码的扩散连接视频片段图,利用多核时态高斯滤波器扩展上下文线索,模拟复杂的视觉感知,并在消息传递阶段对相邻的片段节点进行元素级过滤卷积操作,最终生成和排名候选建议。
  • 其它亮点
    该论文的亮点包括在自然语言视频 grounding(NLVG)和口语语言视频 grounding(SLVG)任务上均取得了SOTA表现,并且在新的Charades-STA Speech和TACoS Speech数据集上进行了实验。此外,UniSDNet的推理速度比强大的多查询基准快1.56倍,代码已经开源。
  • 相关研究
    最近在这个领域中,也有其他相关的研究,例如《Cross-Modal Video Moment Retrieval with Spatial and Temporal Reasoning》和《Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Framework》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论