【ECCV-2020】学习模态间的交互信息用于视频中时序句子定位和事件描述任务 Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos 【推荐理由】本文收录于ECCV-2020,复旦大学与腾讯 AI Lab联合完成,学者指出描述事件句子并在视频中定位句子的具体位置的自动生成,这两个重要任务横跨了语言和视频两大领域。近期的方法多通过使用现成的视频特征来利用视频的多模态本质,但却很少探讨模态之间的交互过程。团队学者受到人脑中存在跨模态交互这一事实的启发,本文提出了一种学习成对模态交互的新方法,以便更好地利用视频中每对模态间的互补信息,从而共同促进两项任务的性能。研究者以成对方式在序列和通道级别上对模态交互过程进行建模,并且成对交互还为目标任务的预测提供了一定的可解释性。大量的控制变量实验结果表明,该方法十分有效,特定的特征设计选择也在其中得到了验证。在 MSVD、MSR-VTT、Charades-STA和ActivityNet四个基准数据集测评中,该方法取得了当前最优异的表现。 【论文链接】https://arxiv.org/abs/2007.14164 【论文代码】暂无

内容中包含的图片若涉及版权问题,请及时与我们联系删除