- 简介视频-语言对齐是一项至关重要的多模态任务,有益于各种下游应用,例如视频文本检索和视频问答。现有方法要么利用视频-文本对中的多模态信息,要么应用全局和局部对齐技术来提高对齐精度。然而,这些方法往往未能充分探索视频内部和不同视频-文本对之间视觉标记之间的时空关系。本文提出了一种新颖的时空图转换器模块,用于统一学习视频-语言对齐预训练的空间和时间上下文(称为STGT)。具体而言,我们的STGT将时空图结构信息与注意力相结合,有效利用时空上下文。通过这种方式,我们可以建模视觉标记之间的关系,促进视频-文本对齐精度,从而有利于下游任务。此外,我们提出了自相似对齐损失,以探索视频和文本中固有的自相似性。通过对比学习实现初始优化,它可以进一步提高视频和文本之间的对齐精度。在具有挑战性的下游任务(包括视频文本检索和视频问答)上的实验结果验证了我们方法的卓越性能。
- 图表
- 解决问题论文旨在解决视频和文本之间的对齐问题,以提高视频-文本检索和视频问答等下游任务的性能。同时,该论文试图探索视频内和不同视频-文本对之间的时空关系。
- 关键思路该论文提出了一种新颖的Spatio-Temporal Graph Transformer模块(STGT),以均匀地学习视频中的时空上下文,并将其与transformer块中的注意力相结合,有效地利用了时空上下文。同时,该论文提出了自相似对齐损失,以探索视频和文本之间的自相似性。
- 其它亮点该论文使用了多个数据集进行实验,包括MSRVTT、MSVD-QA和ActivityNet Captions等。实验结果表明,该方法在视频-文本检索和视频问答等任务中表现出优越的性能。该论文的代码已经开源,并且提供了预训练模型。
- 在最近的相关研究中,一些论文关注于使用多模态信息进行视频-文本对齐,如DAMSM和ViLBERT。另一些论文关注于使用全局和局部对齐技术来提高对齐精度,如MAMO和TVC. ST. 然而,与这些方法不同,该论文提出了一种新颖的STGT模块,以探索视频内和不同视频-文本对之间的时空关系。
沙发等你来抢
去评论
评论
沙发等你来抢