- 简介本文介绍了一种基于视频的问答解决方案。我们的研究发现,视频问答的固定官方基准方法包括两个主要步骤:视觉定位和物体跟踪。然而,在初始步骤中可能存在一个重要的挑战,即所选帧可能缺乏明显可识别的目标对象。此外,单个图像无法回答像“跟踪第一次倒入物品的容器”这样的问题。为了解决这个问题,我们提出了一种替代的两阶段方法:(1)首先,我们利用VALOR模型根据视频信息回答问题;(2)将回答的问题与它们各自的答案连接起来。最后,我们使用TubeDETR为目标生成边界框。
- 解决问题本论文致力于解决视频问答中的视觉定位和目标跟踪问题,提出了一种基于VALOR模型和TubeDETR的两阶段方法。
- 关键思路本论文提出的两阶段方法包括使用VALOR模型回答视频问答问题,并将问题和答案连接起来,然后使用TubeDETR生成目标的边界框。
- 其它亮点本论文的亮点在于提出了一种解决视频问答中视觉定位和目标跟踪问题的新方法,使用了VALOR模型和TubeDETR,实验结果表明该方法在多个数据集上均取得了良好的表现。论文没有提供开源代码。
- 在视频问答领域的相关研究包括:'TVQA: Localized, Compositional Video Question Answering'、'Temporal Grounding Network for Few-Shot Video Captioning and Question Answering'等。
沙发等你来抢
去评论
评论
沙发等你来抢