- 简介尽管视频大语言模型近年来取得了快速进展,但感知性幻觉问题带来了重大的安全风险,严重限制了其在现实场景中的应用。虽然已有多种缓解幻觉的方法被提出,但这些方法往往以牺牲模型的视频理解与推理能力为代价。在本研究中,我们提出了SmartSight,这是一种开创性的无需训练的方法,通过利用模型自身的内省能力来应对上述问题。具体而言,SmartSight生成多个候选回答,以揭示那些在标准贪婪解码过程中常被掩盖的低幻觉输出。它采用“时序注意力坍缩分数”(Temporal Attention Collapse score)来评估每个回答的幻觉程度,该分数用于衡量模型在生成回答时是否过度关注输入视频中无关紧要的时间片段。为了提升效率,SmartSight还识别出“视觉注意力消失点”(Visual Attention Vanishing point),从而实现更准确的幻觉判断,并提前终止高幻觉回答的解码过程,显著降低解码开销。实验结果表明,SmartSight在VRIPT-HAL数据集上使Qwen2.5-VL-7B模型的幻觉率降低了10.59%,同时还在VideoMMMU基准测试中将视频理解与推理性能提升了最高达8.86%。这些结果充分证明了SmartSight在提升开源视频大语言模型可靠性方面的有效性。
-
- 图表
- 解决问题视频大语言模型(Video-LLMs)在实际应用中面临严重的感知幻觉问题,即模型生成看似合理但与视频内容不符的回应,这带来了显著的安全风险。尽管已有若干缓解幻觉的方法被提出,但它们通常以牺牲模型的视频理解与推理能力为代价。本文旨在解决如何在不损害模型理解能力的前提下有效减少幻觉这一关键问题。该问题具有现实紧迫性,并非全新问题,但现有方法存在明显权衡缺陷。
- 关键思路SmartSight 提出一种无需训练的新颖方法,通过利用模型自身的内省能力来识别并抑制幻觉输出。其核心思想是:1)采用多候选响应生成策略,避免标准贪心解码带来的高幻觉风险;2)引入‘时间注意力坍缩得分’(Temporal Attention Collapse score)评估每个响应的幻觉程度,检测模型是否过度关注视频中无关紧要的时间片段;3)提出‘视觉注意力消失点’(Visual Attention Vanishing point)以实现高效判断和早期终止幻觉响应,显著降低解码成本。这种方法完全无需微调,保留了原始模型的能力,是首个将注意力动态用于训练-free幻觉检测的框架。
- 其它亮点实验表明,SmartSight 在 Qwen2.5-VL-7B 上将 VRIPT-HAL 数据集的幻觉率降低了 10.59%,同时在 VideoMMMU 上的理解与推理性能提升了最高 8.86%,实现了安全性与智能性的双重提升。实验设计严谨,覆盖多个基准,验证了方法在不同任务下的鲁棒性。论文强调其训练-free特性,极具部署价值。目前尚未提及代码开源,但其机制可广泛适配其他Video-LLMs,未来工作可探索将其集成至更多模型及扩展至多模态对话系统。
- 1. “Video-ChatGPT: Towards Detailed Video Understanding and Question Answering” 2. “InternVL: Scaling Up Vision Foundation Models for General Visual Recognition” 3. “Emu3: Inside the Black Box of Vision-Language Generation” 4. “Mitigating Hallucinations in Large Vision-Language Models via Self-Refinement” 5. “Focus on What Matters: Mitigating Visual Hallucination in Multimodal Large Language Models through Attention Calibration”
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流