Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

2024年04月11日
  • 简介
    近年来,对于密集视频字幕研究引起了相当大的关注,该研究旨在自动定位和字幕化未经修剪的视频中的所有事件。几项研究将密集视频字幕设计为事件定位和事件字幕化的多任务问题,以考虑任务间的关系。然而,仅使用视觉输入来解决这两个任务是具有挑战性的,因为缺乏语义内容。在本研究中,我们通过提出一个受人类认知信息处理启发的新框架来解决这个问题。我们的模型利用外部存储器来融合先前的知识。记忆检索方法是通过跨模态视频到文本匹配提出的。为了有效地融合检索到的文本特征,我们设计了具有视觉和文本交叉注意力模块的通用编码器和解码器。比较实验已经进行,以展示所提出的方法在ActivityNet Captions和YouCook2数据集上的有效性。实验结果表明,我们的模型在没有来自大型视频数据集的广泛预训练的情况下表现出有希望的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决的问题是如何在视频中自动定位和描述所有事件,通过利用外部记忆来解决视觉输入中缺乏语义内容的问题。
  • 关键思路
    本文提出了一种新的框架,通过使用外部记忆来融合先前的知识,利用跨模态视频到文本匹配的记忆检索方法,设计了具有视觉和文本交叉注意力模块的通用编码器和解码器,解决了视频密集字幕的多任务问题。
  • 其它亮点
    本文的亮点在于提出了一种新的框架来解决视频中的多任务问题,并且使用外部记忆来解决视觉输入中缺乏语义内容的问题。实验结果表明,该模型在ActivityNet Captions和YouCook2数据集上的表现令人满意,而且不需要从大型视频数据集进行广泛的预训练。
  • 相关研究
    近期在视频密集字幕领域的相关研究有:1. 'DenseCap: Fully Convolutional Localization Networks for Dense Captioning' 2. 'Temporal Activity Localization in Untrimmed Videos via Multi-Task Learning of Multi-Level Convolutional Networks' 3. 'Rethinking the Faster R-CNN Architecture for Temporal Action Localization'
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问