Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

向作者提问

NEW

简介

尽管预训练大规模视频语言模型（VLMs）在各种下游视频语言任务中表现出了显着的潜力，但现有的VLMs仍然可能受到某些常见限制的影响，例如，粗粒度的跨模态对齐、时间动态的欠建模、分离的视频语言视图等。在本研究中，我们旨在通过一种精细的结构化时空对齐学习方法（即Finsta）来增强VLMs。首先，我们使用精细的场景图（SG）结构表示输入的文本和视频，两者进一步统一为整体SG（HSG）以建立两种模态之间的桥梁。然后，我们构建了一个基于SG的框架，其中文本SG（TSG）使用图Transformer进行编码，视频动态SG（DSG）和HSG使用新颖的循环图Transformer进行空间和时间特征传播建模。进一步设计了一种空间-时间高斯差分图Transformer，以加强物体在空间和时间维度上的变化感知。接下来，基于TSG和DSG的精细结构特征，我们分别进行以物体为中心的空间对齐和以谓词为中心的时间对齐，增强了视频语言在空间性和时间性上的基础。我们将我们的方法设计为一个即插即用的系统，可以集成到现有的经过良好训练的VLMs中，以进一步增强表示，而无需从头开始训练或依赖下游应用中的SG注释。在标准和长形视频场景下的12个数据集上的6个代表性VL建模任务中，Finsta持续地改进了现有的13个强大的VLMs，并在微调和零-shot设置下显著刷新了当前的最先进的最终任务性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过细粒度的结构化时空对齐学习方法（Finsta）来增强视频-语言模型（VLMs），以解决现有VLMs中存在的一些限制，例如粗粒度的跨模态对齐、时间动态的欠建模、分离的视频-语言视角等。
关键思路

本文的关键思路是使用细粒度场景图（SG）结构来表示输入文本和视频，进而建立一个统一的整体SG（HSG）来连接两种模态。然后，构建一个基于SG的框架，其中文本SG（TSG）采用图形Transformer进行编码，而视频动态SG（DSG）和HSG则采用一种新颖的循环图Transformer进行空间和时间特征传播。接下来，基于TSG和DSG的细粒度结构特征，分别进行以对象为中心的空间对齐和以谓词为中心的时间对齐，增强视频-语言对齐的空间性和时间性。
其它亮点

本文的亮点是将Finsta设计成一个即插即用的系统，可以集成到现有的训练良好的VLMs中，以进一步增强表示，而不需要从头开始训练或在下游应用中依赖SG注释。在6个代表性的VL建模任务中，在标准和长形式视频场景下，Finsta始终持续地提高13个表现强劲的VLMs，并在微调和零-shot设置下显著刷新了当前的最新技术终端任务性能。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问