- 简介尽管已经有了巨大的进步,但目前最先进的视觉语言模型(VLMs)仍然远非完美。它们往往会产生幻觉,并可能生成有偏见的响应。在这种情况下,有一种方法来评估VLM生成的给定响应的可靠性是非常有用的。现有的方法,如使用答案可能性估计不确定性或基于提示的置信度生成,经常遭受过度自信的困扰。其他方法使用自我一致性比较,但受到确认偏见的影响。为了缓解这些问题,我们提出了\textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC})来进行可靠性测量。通过比较使用VLM内部推理过程生成的直接答案和将问题分解为子问题并对VLM生成的子答案进行推理所获得的间接答案之间的一致性,\texttt{DeCC}测量了VLM直接答案的可靠性。在六个视觉语言任务和三个VLM的实验中,\texttt{DeCC}的可靠性估计与任务准确性的相关性比现有方法更好。
-
- 图表
- 解决问题提出一种评估视觉语言模型可靠性的方法,解决现有方法过于自信的问题。
- 关键思路通过将问题分解为子问题并对子答案进行推理,比较直接答案和间接答案的一致性来评估VLM的可靠性。
- 其它亮点使用DeCC方法可以更准确地评估VLM的可靠性,实验结果表明其与任务准确性的相关性更好。涉及六个视觉语言任务和三个VLM。
- 现有方法包括使用答案似然性或基于提示的置信度生成,以及自我一致性比较等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流