- 简介选择性预测的目标是允许模型在可能无法提供可靠预测时弃权,这在安全关键的情况下非常重要。现有的选择性预测方法通常需要访问模型的内部,需要重新训练模型或仅研究单模型。然而,最强大的模型(例如GPT-4)通常只作为黑盒子提供,无法访问其内部,不能由终端用户重新训练,并且经常用于多模态任务。我们在黑盒子设置下研究了视觉语言模型的选择性预测可能性。我们提出使用“邻域一致性”原则来识别黑盒子视觉语言模型在问答任务中的不可靠响应。我们假设仅给出一个视觉问题和模型响应,模型在视觉问题邻域内的响应一致性将表明其可靠性。在黑盒子设置下,直接在特征空间中抽样邻居是不可能的。相反,我们展示了可以使用一个较小的代理模型来近似抽样邻域。我们发现邻域一致性可以用于识别模型对视觉问题的响应,即使在对抗设置或超出代理模型分布的设置中,也可能是不可靠的。
-
- 图表
- 解决问题研究黑盒视觉语言模型中选择性预测的可能性,以解决在安全关键环境下模型可能无法提供可靠预测的问题。
- 关键思路使用邻域一致性原则,在黑盒视觉语言模型中识别不可靠的回答。通过使用较小的代理模型来近似从邻域中采样。
- 其它亮点论文提出了一种黑盒视觉语言模型中选择性预测的方法,可以在对抗性环境或代理模型的分布之外的情况下识别不可靠的模型响应。实验结果表明,该方法可以有效地识别不可靠的模型响应。
- 相关论文:1. Learning to Select Knowledge for Response Generation in Dialog Systems; 2. Selective Classification for Deep Neural Networks
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流