Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison

简介

尽管已经有了巨大的进步，但目前最先进的视觉语言模型(VLMs)仍然远非完美。它们往往会产生幻觉，并可能生成有偏见的响应。在这种情况下，有一种方法来评估VLM生成的给定响应的可靠性是非常有用的。现有的方法，如使用答案可能性估计不确定性或基于提示的置信度生成，经常遭受过度自信的困扰。其他方法使用自我一致性比较，但受到确认偏见的影响。为了缓解这些问题，我们提出了\textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC})来进行可靠性测量。通过比较使用VLM内部推理过程生成的直接答案和将问题分解为子问题并对VLM生成的子答案进行推理所获得的间接答案之间的一致性，\texttt{DeCC}测量了VLM直接答案的可靠性。在六个视觉语言任务和三个VLM的实验中，\texttt{DeCC}的可靠性估计与任务准确性的相关性比现有方法更好。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种评估视觉语言模型可靠性的方法，解决现有方法过于自信的问题。
关键思路

通过将问题分解为子问题并对子答案进行推理，比较直接答案和间接答案的一致性来评估VLM的可靠性。
其它亮点

使用DeCC方法可以更准确地评估VLM的可靠性，实验结果表明其与任务准确性的相关性更好。涉及六个视觉语言任务和三个VLM。
相关研究

现有方法包括使用答案似然性或基于提示的置信度生成，以及自我一致性比较等。

Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison

提问交流

提问交流