Video Summarization: Towards Entity-Aware Captions

2023年12月01日
  • 简介
    目前流行的视频字幕基准和模型处理的是缺乏特定人物、地点或组织命名实体的通用字幕。相反,新闻视频提供了一个具有挑战性的环境,其中字幕需要这些命名实体才能进行有意义的摘要。因此,我们提出了直接将新闻视频摘要为实体感知字幕的任务。我们还发布了一个大规模数据集VIEWS(VIdeo NEWS),以支持这项任务的研究。此外,我们提出了一种方法,通过从外部世界知识检索的上下文来增强视频的视觉信息,生成实体感知字幕。我们在三个视频字幕模型上展示了我们方法的有效性。我们还展示了我们的方法适用于现有的新闻图片字幕数据集。通过所有广泛的实验和见解,我们相信我们为未来研究这项具有挑战性的任务奠定了坚实的基础。
  • 图表
  • 解决问题
    论文提出了一个新问题,即如何将新闻视频的实体信息融入视频标题生成中,以提高视频摘要的质量。
  • 关键思路
    论文提出了一种方法,通过从外部世界知识库中检索上下文信息,将其与视频中的视觉信息相结合,生成实体感知标题。
  • 其它亮点
    论文提出了一个新的视频摘要任务,并发布了一个大规模数据集VIEWS。论文还提出了一种将外部世界知识库中的上下文信息与视频中的视觉信息相结合的方法,以生成实体感知标题。实验结果表明,该方法在三个视频字幕模型上均取得了良好的效果,并且该方法具有良好的泛化性能。
  • 相关研究
    最近的相关研究包括视频摘要和视频字幕生成,如《MSVD: A Large-Scale Video Description Dataset for Bridging Video and Language》和《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论