When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

2025年06月05日
  • 简介
    大型多模态模型(LMMs)在视觉感知和推理方面取得了令人印象深刻的进展。然而,当面对视觉上模糊或无语义的场景文本时,这些模型常常难以准确识别和理解内容,往往会生成语义上看似合理但视觉上不正确的答案,我们称这种现象为语义幻觉。在这项工作中,我们研究了语义幻觉的根本原因,并发现了一个关键结论:在具有更强注意力聚焦于场景文本区域的Transformer层中,语义幻觉的发生概率较低。基于此,我们提出了一种无需训练的语义幻觉缓解框架,该框架包含两个核心组件:(1)ZoomText,一种从粗到精的策略,能够无需外部检测器即可识别潜在的文本区域;(2)Grounded Layer Correction,通过自适应利用较少产生幻觉的层的内部表示来引导解码过程,从而纠正无语义样本的幻觉输出,同时保留有意义样本的语义信息。为了实现严谨的评估,我们引入了TextHalu-Bench,这是一个包含超过1,730个样本的基准数据集,涵盖了语义和非语义案例,其中的问题-答案对由人工精心策划,旨在探测模型的幻觉现象。大量实验表明,我们的方法不仅有效缓解了语义幻觉,还在场景文本检测与理解的公开基准测试中取得了优异的表现。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型多模态模型(LMMs)在处理视觉上模糊或非语义场景文本时容易产生语义幻觉的问题。这是一个已知问题,但本研究专注于理解其根本原因并提出解决方案。
  • 关键思路
    关键思路是通过分析Transformer层的注意力机制,发现对场景文本区域关注更强的层更不容易产生语义幻觉。基于此,提出了一个无需训练的框架,包含两个组件:ZoomText用于识别潜在文本区域,Grounded Layer Correction利用较少幻觉倾向的层来指导解码过程。这种方法在减少幻觉的同时保留了有意义样本的语义。
  • 其它亮点
    论文引入了一个新的基准数据集TextHalu-Bench,包含1,730个样本,涵盖了语义和非语义案例,用于评估模型的幻觉情况。实验表明该方法不仅有效减少了语义幻觉,还在公共基准上表现良好。代码和数据集均未提及是否开源,但未来可进一步探索如何将此方法扩展到其他模态或任务中。
  • 相关研究
    相关研究包括:1) CLIP等多模态模型的研究;2) 基于注意力机制改进视觉-语言模型的工作,如M6、OFA;3) 针对幻觉问题的具体研究,例如《Understanding and Mitigating hallucinations in Vision-Language Models》;4) 场景文本检测与识别领域的经典工作,如TextSpotter、EAST等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问