Step Differences in Instructional Video

2024年04月24日
  • 简介
    将用户的视频与参考教学视频进行比较是AR/VR技术提供个性化辅助的关键要求,以适应用户的进度。然而,目前基于语言的辅助方法只能回答有关单个视频的问题。我们提出了一种方法,首先利用现有的步骤注释和配套叙述,自动生成大量涉及HowTo100M视频对的视觉指导调整数据,然后训练一个视频条件语言模型,共同推理多个原始视频。我们的模型在识别视频对之间的差异以及根据这些差异的严重程度对视频进行排名方面实现了最先进的性能,并显示出在多个视频上执行通用推理的有希望的能力。
  • 图表
  • 解决问题
    如何实现针对多个视频的语言辅助?当前的语言辅助技术只能回答单个视频的问题,无法进行多视频的联合推理。
  • 关键思路
    通过利用现有的步骤注释和配套叙述,自动生成大量的视频对,从而训练一个视频条件的语言模型,以实现跨多个原始视频的联合推理。
  • 其它亮点
    论文采用了HowTo100M数据集,实现了对视频对差异的识别和排名,同时表现出在多个视频上进行一般推理的潜力。值得注意的是,论文提供了开源代码。
  • 相关研究
    在这个领域中,最近还有一些相关研究,例如:“Cross-modal Video Moment Retrieval with Spatial and Language-temporal Attention Mechanisms”(跨模态视频时刻检索与空间和语言时序注意机制)和“Learning to Learn from Video and Text via Large-scale Discriminative Clustering”(通过大规模判别聚类从视频和文本中学习)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论