- 简介本文受到人类视觉知觉生物学中活动-静默和持续活动机制的启发,设计了一个统一的静态和动态网络(UniSDNet),以在跨模态环境中学习视频和文本/音频查询之间的语义关联,实现高效的视频定位。对于静态建模,作者设计了一种新颖的残差结构(ResMLP),以增强视频片段和查询之间的全局综合交互,实现更有效的语义增强/补充。对于动态建模,作者有效地利用了网络设计中持续活动机制的三个特征,以更好地理解视频上下文。具体而言,作者基于2D稀疏时间掩蔽构建了一个扩散连接的视频剪辑图,以反映“短期效应”关系。作者创新地将时间距离和相关性视为联合“辅助证据线索”,并设计了多核时间高斯滤波器将上下文线索扩展到高维空间,模拟“复杂的视觉知觉”,然后在消息传递阶段对邻近剪辑节点进行元素级过滤卷积操作,最终生成和排名候选提案。UniSDNet适用于自然语言视频定位(NLVG)和口语语言视频定位(SLVG)任务。UniSDNet在三个广泛使用的NLVG数据集以及三个SLVG数据集上实现了SOTA性能,例如在ActivityNet Captions上报告了38.88% R@1,IoU@0.7的新记录,在TACoS上报告了40.26% R@1,IoU@0.5的新记录。为了促进这一领域的发展,作者为SLVG任务收集了两个新数据集(Charades-STA Speech和TACoS Speech)。同时,UniSDNet的推理速度比强大的多查询基准快1.56倍。代码可在https://github.com/xian-sh/UniSDNet获得。
- 图表
- 解决问题本论文旨在解决跨模态环境下视频 grounding 的问题,即如何学习视频和文本/音频查询之间的语义关联。
- 关键思路该论文提出了一个统一的静态和动态网络(UniSDNet)来实现视频 grounding,其中静态建模采用了残差结构(ResMLP),动态建模则利用了人类视觉感知生物学中的活动-静默和持久活动机制。具体来说,它构建了一个基于二维稀疏时间掩码的扩散连接视频片段图,利用多核时态高斯滤波器扩展上下文线索,模拟复杂的视觉感知,并在消息传递阶段对相邻的片段节点进行元素级过滤卷积操作,最终生成和排名候选建议。
- 其它亮点该论文的亮点包括在自然语言视频 grounding(NLVG)和口语语言视频 grounding(SLVG)任务上均取得了SOTA表现,并且在新的Charades-STA Speech和TACoS Speech数据集上进行了实验。此外,UniSDNet的推理速度比强大的多查询基准快1.56倍,代码已经开源。
- 最近在这个领域中,也有其他相关的研究,例如《Cross-Modal Video Moment Retrieval with Spatial and Temporal Reasoning》和《Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Framework》。
沙发等你来抢
去评论
评论
沙发等你来抢