Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data

2024年07月18日
  • 简介
    最近的视频文本基础模型在各种下游视频理解任务中表现出强大的性能。这些视频文本模型能否真正理解自然视频的内容?标准的视频文本评估可能会产生误导,因为许多问题可以仅从单个帧中的对象和上下文或数据集固有的偏差中推断出来。在本文中,我们旨在更好地评估当前视频文本模型的能力并了解其限制。我们提出了一种新的视频文本理解评估任务,即来自反事实增强数据的检索(RCAD),以及一个新的Feint6K数据集。为了在我们的新评估任务上取得成功,模型必须从跨帧推理中推导出对视频的全面理解。分析表明,以前的视频文本基础模型很容易被反事实增强数据欺骗,并且远远落后于人类水平的表现。为了缩小视频文本模型与人类在RCAD上的表现差距,我们确定了当前对比方法在视频文本数据上的关键限制,并引入了LLM-teacher,一种更有效的方法,通过利用从预训练的大型语言模型获得的知识来学习动作语义。实验和分析表明,我们的方法成功地学习了更具有区分性的动作嵌入,并在应用于多个视频文本模型时改善了Feint6K的结果。我们的Feint6K数据集和项目页面可在https://feint6k.github.io上获得。
  • 图表
  • 解决问题
    论文旨在评估当前视频文本模型对自然视频内容的理解能力,并提出一个新的评估任务和数据集来更好地评估模型的能力和限制。
  • 关键思路
    提出了一种新的视频文本理解评估任务,即从反事实增强数据中检索,并引入了LLM-teacher方法来学习行动语义,以提高模型在新数据集上的性能。
  • 其它亮点
    论文提出了一个新的视频文本理解评估任务和一个新的数据集Feint6K,并发现当前的视频文本模型容易被反事实增强数据欺骗,与人类水平的表现相差甚远。作者还引入了LLM-teacher方法来学习行动语义,以提高模型在新数据集上的性能,并在多个视频文本模型上实验验证了其有效性。
  • 相关研究
    最近的相关研究主要集中在视频文本理解方面,例如:《Unbiased Scene Graph Generation from Biased Training》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论