A Comprehensive Review on Recent Methods and Challenges of Video Description 论文链接:https://arxiv.org/abs/2011.14752 35页综述,共计108篇参考文献,本文全面介绍了基于深度学习的视频描述的技术发展和最新方法及其优缺点,数据集,评估指标等内容(视频描述是CV和NLP的交叉方向,正在快速发展)

视频描述涉及视频中动作,事件和对象的自然语言描述的生成。通过填补视力障碍者的语言和视觉之间的空白,基于内容生成自动标题建议,基于内容浏览视频和基于视频的机器翻译,视频描述有各种应过去的十年来,在视频描述,评估指标和数据集的方法/方法方面,该领域已经完成了多项工作。为了分析视频描述任务的进度,需要进行全面的调查,涵盖视频描述方法的所有阶段,并特别关注最新的深度学习方法。在这项工作中,我们报告了有关视频描述方法各个阶段,视频描述数据集,评估指标,公开竞赛以激发对视频描述的研究,该领域的开放挑战以及未来研究方向的全面调查。在本次调查中,我们介绍了针对每个数据集提出的最新方法及其优缺点。对于这个研究领域的发展,众多基准数据集的可用性是基本需求。此外,我们将所有数据集分为两类:开放域数据集和特定于域的数据集。从我们的调查中,我们发现由于视频描述的任务属于计算机视觉和自然语言处理的交集,因此该领域的工作正在快速发展。但是,由于各种挑战,例如由于影响视觉特征质量的相似帧导致的冗余,包含更多内容的数据集的可用性以及有效评估指标的可用性等各种挑战,视频描述中的工作还远远没有达到饱和阶段。

内容中包含的图片若涉及版权问题,请及时与我们联系删除