Hallucination Mitigation Prompts Long-term Video Understanding

2024年06月17日
  • 简介
    最近,多模态大语言模型在视频理解任务方面取得了显著进展。然而,它们理解未经处理的长视频的能力非常有限,主要是由于支持巨大内存开销的困难。虽然现有方法通过聚合帧在内存和信息之间实现平衡,但它们不可避免地引入了严重的幻觉问题。为了解决这个问题,本文基于现有的MLLM构建了一个全面的幻觉缓解管道。具体而言,我们使用CLIP分数来引导带有问题的帧采样过程,选择与问题相关的关键帧。然后,我们将问题信息注入到图像Q-former的查询中,以获得更重要的视觉特征。最后,在答案生成阶段,我们利用思维链和上下文学习技术来明确控制答案的生成。值得一提的是,对于断点模式,我们发现图像理解模型比视频理解模型取得了更好的结果。因此,我们使用比较机制聚合了两种模型的答案。最终,在MovieChat数据集上,我们分别在全局模式和断点模式下取得了84.2%和62.9%的成绩,超过了官方基线模型29.1%和24.1%。此外,所提出的方法在CVPR LOVEU 2024长期视频问答挑战赛中获得了第三名。代码可在https://github.com/lntzm/CVPR24Track-LongVideo获得。
  • 图表
  • 解决问题
    解决问题:本文旨在解决长视频理解任务中的严重幻觉问题,提出了一种基于CLIP得分、图像Q-former和链式思考的综合幻觉缓解流程。
  • 关键思路
    关键思路:本文的关键思路是使用CLIP得分来指导帧采样过程,并使用问题信息注入图像Q-former的查询中以获得更重要的视觉特征。最后,在答案生成阶段,利用链式思考和上下文学习技术来显式控制答案的生成。
  • 其它亮点
    其他亮点:本文使用MovieChat数据集进行实验,使用开源代码。在全局模式和断点模式下,本文方法分别取得了84.2%和62.9%的准确率,超过了官方基线模型29.1%和24.1%。此外,本文方法在CVPR LOVEU 2024长视频问答挑战赛中获得了第三名。
  • 相关研究
    相关研究:当前,多模态大型语言模型在视频理解任务中取得了显著进展。最近的相关研究包括:《HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training》、《Dense Passage Retrieval for Open-Domain Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论