Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison

2024年07月10日
  • 简介
    尽管已经有了巨大的进步,但目前最先进的视觉语言模型(VLMs)仍然远非完美。它们往往会产生幻觉,并可能生成有偏见的响应。在这种情况下,有一种方法来评估VLM生成的给定响应的可靠性是非常有用的。现有的方法,如使用答案可能性估计不确定性或基于提示的置信度生成,经常遭受过度自信的困扰。其他方法使用自我一致性比较,但受到确认偏见的影响。为了缓解这些问题,我们提出了\textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC})来进行可靠性测量。通过比较使用VLM内部推理过程生成的直接答案和将问题分解为子问题并对VLM生成的子答案进行推理所获得的间接答案之间的一致性,\texttt{DeCC}测量了VLM直接答案的可靠性。在六个视觉语言任务和三个VLM的实验中,\texttt{DeCC}的可靠性估计与任务准确性的相关性比现有方法更好。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种评估视觉语言模型可靠性的方法,解决现有方法过于自信的问题。
  • 关键思路
    通过将问题分解为子问题并对子答案进行推理,比较直接答案和间接答案的一致性来评估VLM的可靠性。
  • 其它亮点
    使用DeCC方法可以更准确地评估VLM的可靠性,实验结果表明其与任务准确性的相关性更好。涉及六个视觉语言任务和三个VLM。
  • 相关研究
    现有方法包括使用答案似然性或基于提示的置信度生成,以及自我一致性比较等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问