Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering

向作者提问

NEW

简介

尽管在视频问答（VideoQA）方面取得了一些进展，但这些方法通常作为黑盒子运作，难以理解它们的推理过程并执行一致的组合推理。为了解决这些挑战，我们提出了一个“模型无关”的视频对齐和答案聚合（VA$^{3}$）框架，它能够通过集成视频对齐器和答案聚合器模块来增强现有VidQA方法的组合一致性和准确性。视频对齐器根据问题分层选择相关的视频片段，而答案聚合器根据其子问题推断问题的答案，通过问题分解图上的信息流和对比学习策略来确保组合一致性。我们在AGQA-Decomp数据集的三种设置下使用三种基线方法评估了我们的框架，并提出了新的指标来更全面地衡量VidQA方法的组合一致性。此外，我们提出了一个基于大型语言模型（LLM）的自动问题分解流水线，以将我们的框架应用于任何VidQA数据集。我们使用它扩展了MSVD和NExT-QA数据集，以在更广泛的场景下评估我们的VA$^3$框架。广泛的实验表明，我们的框架提高了现有方法的组合一致性和准确性，从而导致更可解释的真实世界VidQA模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一个模型无关的视频对齐和答案聚合（VA$^{3}$）框架，旨在提高现有视频问答（VidQA）方法的组合一致性和准确性。这个框架的主要目的是什么？
关键思路

VA$^{3}$框架通过集成视频对齐器和答案聚合器模块来提高现有VidQA方法的组合一致性和准确性。视频对齐器基于问题分层选择相关的视频片段，而答案聚合器根据其子问题推断问题的答案，通过问题分解图中的信息流和对比学习策略确保组合一致性。
其它亮点

论文提出了一个新的模型无关的框架VA$^{3}$，可以提高现有VidQA方法的组合一致性和准确性。论文提出了新的度量标准来更全面地衡量VidQA方法的组合一致性。论文还提出了基于大型语言模型（LLM）的自动问题分解流程，可以将VA$^{3}$框架应用于任何VidQA数据集。实验结果表明，VA$^{3}$框架提高了现有方法的组合一致性和准确性，可以用于更可解释的实际VidQA模型。
相关研究

最近在这个领域中，还有一些相关的研究。例如，'TVQA: Localized, Compositional Video Question Answering'，'MovieQA: Understanding Stories in Movies through Question-Answering'等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问