When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

向作者提问

NEW

简介

大型多模态模型（LMMs）在视觉感知和推理方面取得了令人印象深刻的进展。然而，当面对视觉上模糊或无语义的场景文本时，这些模型常常难以准确识别和理解内容，往往会生成语义上看似合理但视觉上不正确的答案，我们称这种现象为语义幻觉。在这项工作中，我们研究了语义幻觉的根本原因，并发现了一个关键结论：在具有更强注意力聚焦于场景文本区域的Transformer层中，语义幻觉的发生概率较低。基于此，我们提出了一种无需训练的语义幻觉缓解框架，该框架包含两个核心组件：（1）ZoomText，一种从粗到精的策略，能够无需外部检测器即可识别潜在的文本区域；（2）Grounded Layer Correction，通过自适应利用较少产生幻觉的层的内部表示来引导解码过程，从而纠正无语义样本的幻觉输出，同时保留有意义样本的语义信息。为了实现严谨的评估，我们引入了TextHalu-Bench，这是一个包含超过1,730个样本的基准数据集，涵盖了语义和非语义案例，其中的问题-答案对由人工精心策划，旨在探测模型的幻觉现象。大量实验表明，我们的方法不仅有效缓解了语义幻觉，还在场景文本检测与理解的公开基准测试中取得了优异的表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型多模态模型（LMMs）在处理视觉上模糊或非语义场景文本时容易产生语义幻觉的问题。这是一个已知问题，但本研究专注于理解其根本原因并提出解决方案。
关键思路

关键思路是通过分析Transformer层的注意力机制，发现对场景文本区域关注更强的层更不容易产生语义幻觉。基于此，提出了一个无需训练的框架，包含两个组件：ZoomText用于识别潜在文本区域，Grounded Layer Correction利用较少幻觉倾向的层来指导解码过程。这种方法在减少幻觉的同时保留了有意义样本的语义。
其它亮点

论文引入了一个新的基准数据集TextHalu-Bench，包含1,730个样本，涵盖了语义和非语义案例，用于评估模型的幻觉情况。实验表明该方法不仅有效减少了语义幻觉，还在公共基准上表现良好。代码和数据集均未提及是否开源，但未来可进一步探索如何将此方法扩展到其他模态或任务中。
相关研究

相关研究包括：1) CLIP等多模态模型的研究；2) 基于注意力机制改进视觉-语言模型的工作，如M6、OFA；3) 针对幻觉问题的具体研究，例如《Understanding and Mitigating hallucinations in Vision-Language Models》；4) 场景文本检测与识别领域的经典工作，如TextSpotter、EAST等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问