Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

简介

选择性预测的目标是允许模型在可能无法提供可靠预测时弃权，这在安全关键的情况下非常重要。现有的选择性预测方法通常需要访问模型的内部，需要重新训练模型或仅研究单模型。然而，最强大的模型（例如GPT-4）通常只作为黑盒子提供，无法访问其内部，不能由终端用户重新训练，并且经常用于多模态任务。我们在黑盒子设置下研究了视觉语言模型的选择性预测可能性。我们提出使用“邻域一致性”原则来识别黑盒子视觉语言模型在问答任务中的不可靠响应。我们假设仅给出一个视觉问题和模型响应，模型在视觉问题邻域内的响应一致性将表明其可靠性。在黑盒子设置下，直接在特征空间中抽样邻居是不可能的。相反，我们展示了可以使用一个较小的代理模型来近似抽样邻域。我们发现邻域一致性可以用于识别模型对视觉问题的响应，即使在对抗设置或超出代理模型分布的设置中，也可能是不可靠的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究黑盒视觉语言模型中选择性预测的可能性，以解决在安全关键环境下模型可能无法提供可靠预测的问题。
关键思路

使用邻域一致性原则，在黑盒视觉语言模型中识别不可靠的回答。通过使用较小的代理模型来近似从邻域中采样。
其它亮点

论文提出了一种黑盒视觉语言模型中选择性预测的方法，可以在对抗性环境或代理模型的分布之外的情况下识别不可靠的模型响应。实验结果表明，该方法可以有效地识别不可靠的模型响应。
相关研究

相关论文：1. Learning to Select Knowledge for Response Generation in Dialog Systems; 2. Selective Classification for Deep Neural Networks

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

提问交流

提问交流