Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

简介

本文受到人类视觉知觉生物学中活动-静默和持续活动机制的启发，设计了一个统一的静态和动态网络（UniSDNet），以在跨模态环境中学习视频和文本/音频查询之间的语义关联，实现高效的视频定位。对于静态建模，作者设计了一种新颖的残差结构（ResMLP），以增强视频片段和查询之间的全局综合交互，实现更有效的语义增强/补充。对于动态建模，作者有效地利用了网络设计中持续活动机制的三个特征，以更好地理解视频上下文。具体而言，作者基于2D稀疏时间掩蔽构建了一个扩散连接的视频剪辑图，以反映“短期效应”关系。作者创新地将时间距离和相关性视为联合“辅助证据线索”，并设计了多核时间高斯滤波器将上下文线索扩展到高维空间，模拟“复杂的视觉知觉”，然后在消息传递阶段对邻近剪辑节点进行元素级过滤卷积操作，最终生成和排名候选提案。UniSDNet适用于自然语言视频定位（NLVG）和口语语言视频定位（SLVG）任务。UniSDNet在三个广泛使用的NLVG数据集以及三个SLVG数据集上实现了SOTA性能，例如在ActivityNet Captions上报告了38.88％ R@1，IoU@0.7的新记录，在TACoS上报告了40.26％ R@1，IoU@0.5的新记录。为了促进这一领域的发展，作者为SLVG任务收集了两个新数据集（Charades-STA Speech和TACoS Speech）。同时，UniSDNet的推理速度比强大的多查询基准快1.56倍。代码可在https://github.com/xian-sh/UniSDNet获得。
图表
解决问题

本论文旨在解决跨模态环境下视频 grounding 的问题，即如何学习视频和文本/音频查询之间的语义关联。
关键思路

该论文提出了一个统一的静态和动态网络（UniSDNet）来实现视频 grounding，其中静态建模采用了残差结构（ResMLP），动态建模则利用了人类视觉感知生物学中的活动-静默和持久活动机制。具体来说，它构建了一个基于二维稀疏时间掩码的扩散连接视频片段图，利用多核时态高斯滤波器扩展上下文线索，模拟复杂的视觉感知，并在消息传递阶段对相邻的片段节点进行元素级过滤卷积操作，最终生成和排名候选建议。
其它亮点

该论文的亮点包括在自然语言视频 grounding（NLVG）和口语语言视频 grounding（SLVG）任务上均取得了SOTA表现，并且在新的Charades-STA Speech和TACoS Speech数据集上进行了实验。此外，UniSDNet的推理速度比强大的多查询基准快1.56倍，代码已经开源。
相关研究

最近在这个领域中，也有其他相关的研究，例如《Cross-Modal Video Moment Retrieval with Spatial and Temporal Reasoning》和《Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Framework》。

Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

评论