- 简介本文介绍了一种名为“长视频问答任务”的挑战,需要理解和分析视频内容以利用时间和上下文信息准确回答问题。我们提出了一种名为MM-Screenplayer的先进视频理解系统,具有多模式感知能力,可以将任何视频转换为文本剧本表示。与以往的叙事方法不同,我们将视频内容组织成场景作为基本单位,而不仅仅是视觉连续镜头。此外,我们开发了一种“回顾”策略,以重新评估和验证不确定的信息,特别针对断点模式。在CVPR'2024长视频理解(LOVEU)Track 1挑战中,MM-Screenplayer获得了最高分数,全局准确率为87.5%,断点准确率为68.8%。
- 图表
- 解决问题本论文旨在解决长视频问答任务中的挑战,提出一种基于多模态感知的视频理解系统 MM-Screenplayer,将视频内容转化为文本剧本表示,采用场景作为基本单元进行组织,同时提出“回顾”策略以验证不确定信息。
- 关键思路MM-Screenplayer 是一种基于多模态感知的视频理解系统,通过将视频内容转化为文本剧本表示来组织视频内容,采用场景作为基本单元进行组织,并提出“回顾”策略以验证不确定信息。
- 其它亮点本论文提出的 MM-Screenplayer 在 CVPR'2024 的 LOVEU Track 1 Challenge 中取得了最高分数,全球准确率为 87.5%,断点准确率为 68.8%。论文还介绍了一些实验设计、数据集和代码等信息。
- 在这个领域中,还有一些相关的研究,例如:《Temporal Grounding via Attention-based Multi-Modal Fusion for Video Question Answering》、《Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos》等。
沙发等你来抢
去评论
评论
沙发等你来抢