- 简介尽管预训练大规模视频语言模型(VLMs)在各种下游视频语言任务中表现出了显着的潜力,但现有的VLMs仍然可能受到某些常见限制的影响,例如,粗粒度的跨模态对齐、时间动态的欠建模、分离的视频语言视图等。在本研究中,我们旨在通过一种精细的结构化时空对齐学习方法(即Finsta)来增强VLMs。首先,我们使用精细的场景图(SG)结构表示输入的文本和视频,两者进一步统一为整体SG(HSG)以建立两种模态之间的桥梁。然后,我们构建了一个基于SG的框架,其中文本SG(TSG)使用图Transformer进行编码,视频动态SG(DSG)和HSG使用新颖的循环图Transformer进行空间和时间特征传播建模。进一步设计了一种空间-时间高斯差分图Transformer,以加强物体在空间和时间维度上的变化感知。接下来,基于TSG和DSG的精细结构特征,我们分别进行以物体为中心的空间对齐和以谓词为中心的时间对齐,增强了视频语言在空间性和时间性上的基础。我们将我们的方法设计为一个即插即用的系统,可以集成到现有的经过良好训练的VLMs中,以进一步增强表示,而无需从头开始训练或依赖下游应用中的SG注释。在标准和长形视频场景下的12个数据集上的6个代表性VL建模任务中,Finsta持续地改进了现有的13个强大的VLMs,并在微调和零-shot设置下显著刷新了当前的最先进的最终任务性能。
-
- 图表
- 解决问题本文旨在通过细粒度的结构化时空对齐学习方法(Finsta)来增强视频-语言模型(VLMs),以解决现有VLMs中存在的一些限制,例如粗粒度的跨模态对齐、时间动态的欠建模、分离的视频-语言视角等。
- 关键思路本文的关键思路是使用细粒度场景图(SG)结构来表示输入文本和视频,进而建立一个统一的整体SG(HSG)来连接两种模态。然后,构建一个基于SG的框架,其中文本SG(TSG)采用图形Transformer进行编码,而视频动态SG(DSG)和HSG则采用一种新颖的循环图Transformer进行空间和时间特征传播。接下来,基于TSG和DSG的细粒度结构特征,分别进行以对象为中心的空间对齐和以谓词为中心的时间对齐,增强视频-语言对齐的空间性和时间性。
- 其它亮点本文的亮点是将Finsta设计成一个即插即用的系统,可以集成到现有的训练良好的VLMs中,以进一步增强表示,而不需要从头开始训练或在下游应用中依赖SG注释。在6个代表性的VL建模任务中,在标准和长形式视频场景下,Finsta始终持续地提高13个表现强劲的VLMs,并在微调和零-shot设置下显著刷新了当前的最新技术终端任务性能。
- 最近在这个领域中,还有一些相关的研究,例如:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流