- 简介现有的长视频理解方法主要集中于仅持续几十秒的视频,对于处理更长视频的技术探索有限。更长视频中增加的帧数带来了两个主要挑战:难以定位关键信息和进行长距离推理。因此,我们提出了DrVideo,这是一个基于文档检索的系统,旨在实现对长视频的理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。具体来说,DrVideo将长视频转换为基于文本的长文档,以最初检索关键帧并增强这些帧的信息,这被用作系统的起点。然后,它采用基于代理的迭代循环,不断搜索缺失信息,增强相关数据,并在收集到足够的与问题相关的信息后以思维链的方式提供最终预测。对长视频基准的广泛实验证实了我们方法的有效性。DrVideo在EgoSchema基准测试中比现有最先进的方法提高了+3.8的准确度(3分钟),在MovieChat-1K中的break模式中提高了+17.9,在MovieChat-1K的global模式中提高了+38.0(10分钟),在LLama-Vid QA数据集上提高了+30.2(超过60分钟)。
- 图表
- 解决问题DrVideo是一种基于文档检索的长视频理解系统,旨在解决长视频理解中的信息定位和长距离推理问题。
- 关键思路DrVideo将长视频转换为基于文本的长文档,以有效利用大型语言模型的能力,通过代理迭代循环来不断搜索缺失信息、增强相关数据,并在收集到足够的问题相关信息后以思维链方式提供最终预测。
- 其它亮点DrVideo在EgoSchema基准测试上的准确率比现有最先进方法提高了+3.8,在MovieChat-1K中的break模式上提高了+17.9,在MovieChat-1K全局模式上提高了+38.0,在LLama-Vid QA数据集上提高了+30.2。论文提出的代理迭代循环方法和基于文本的长文档转换方法值得关注。
- 与此相关的研究包括视频理解、文本检索、大型语言模型等方面的研究。其中一些论文包括:《A Survey of Video Dataset for Human Action and Activity Recognition》、《Dense Passage Retrieval for Open-Domain Question Answering》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢