Visual Hallucination: Definition, Quantification, and Prescriptive Remediations

简介

幻觉现象的令人担忧的增加或许是阻碍负责任人工智能发展的最重要的障碍。近来，相当多的研究集中于检测和减轻大型语言模型（LLMs）中的幻觉。然而，值得注意的是，视觉-语言模型（VLMs）中的幻觉也非常普遍。本文提供了一个关于基于两个任务的VLM幻觉分析的细粒度论述：i）图像字幕，和ii）视觉问答（VQA）。我们勾勒出了视觉幻觉的八个细粒度方向：i）上下文猜测，ii）身份不符，iii）地理错误，iv）视觉错觉，v）性别异常，vi）VLM作为分类器，vii）错误阅读，和viii）数字差异。我们创建了一个名为视觉幻觉诱发（VHILT）的公开数据集，其中包括使用八个VLMs在字幕和VQA两个任务中生成的2,000个样本，并附有先前提到的类别的人工注释。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究视觉语言模型（VLMs）中的幻觉问题，并提供一个基于图像字幕和视觉问答两个任务的细致分析，探讨八个细分方向的视觉幻觉问题
关键思路

本文提出了一种细致的方法来剖析和分类VLM中的视觉幻觉问题，并且提供了一个公开可用的数据集VHILT，以帮助研究人员更好地研究和解决这个问题
其它亮点

本文提出了一个新的视觉幻觉问题分类方法，提供了一个公开可用的数据集VHILT，包括2000个样本和人工注释，为研究人员提供了更好的研究工具。实验结果表明，当前的VLM模型存在视觉幻觉问题，需要进一步解决。
相关研究

最近的研究集中在大语言模型（LLMs）中检测和减轻幻觉问题，但是本文指出，视觉语言模型（VLMs）中的视觉幻觉问题同样普遍存在。

Visual Hallucination: Definition, Quantification, and Prescriptive Remediations

提问交流

提问交流