Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering

CVPR (2024) 13395-13404
2024年07月03日
  • 简介
    尽管在视频问答(VideoQA)方面取得了一些进展,但这些方法通常作为黑盒子运作,难以理解它们的推理过程并执行一致的组合推理。为了解决这些挑战,我们提出了一个“模型无关”的视频对齐和答案聚合(VA$^{3}$)框架,它能够通过集成视频对齐器和答案聚合器模块来增强现有VidQA方法的组合一致性和准确性。视频对齐器根据问题分层选择相关的视频片段,而答案聚合器根据其子问题推断问题的答案,通过问题分解图上的信息流和对比学习策略来确保组合一致性。我们在AGQA-Decomp数据集的三种设置下使用三种基线方法评估了我们的框架,并提出了新的指标来更全面地衡量VidQA方法的组合一致性。此外,我们提出了一个基于大型语言模型(LLM)的自动问题分解流水线,以将我们的框架应用于任何VidQA数据集。我们使用它扩展了MSVD和NExT-QA数据集,以在更广泛的场景下评估我们的VA$^3$框架。广泛的实验表明,我们的框架提高了现有方法的组合一致性和准确性,从而导致更可解释的真实世界VidQA模型。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了一个模型无关的视频对齐和答案聚合(VA$^{3}$)框架,旨在提高现有视频问答(VidQA)方法的组合一致性和准确性。这个框架的主要目的是什么?
  • 关键思路
    VA$^{3}$框架通过集成视频对齐器和答案聚合器模块来提高现有VidQA方法的组合一致性和准确性。视频对齐器基于问题分层选择相关的视频片段,而答案聚合器根据其子问题推断问题的答案,通过问题分解图中的信息流和对比学习策略确保组合一致性。
  • 其它亮点
    论文提出了一个新的模型无关的框架VA$^{3}$,可以提高现有VidQA方法的组合一致性和准确性。论文提出了新的度量标准来更全面地衡量VidQA方法的组合一致性。论文还提出了基于大型语言模型(LLM)的自动问题分解流程,可以将VA$^{3}$框架应用于任何VidQA数据集。实验结果表明,VA$^{3}$框架提高了现有方法的组合一致性和准确性,可以用于更可解释的实际VidQA模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,'TVQA: Localized, Compositional Video Question Answering','MovieQA: Understanding Stories in Movies through Question-Answering'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问