- 简介在评估模型的可信度时,估计模型响应的不确定性或置信度是非常重要的,这不仅涉及到响应本身,还涉及到整个模型。本文探讨了使用黑盒或查询访问大型语言模型(LLMs)的响应时,如何估计置信度的问题。我们提出了一个简单且可扩展的框架,在这个框架中,我们设计了新颖的特征,并在这些特征上训练了一个(可解释的)模型(即逻辑回归),以估计置信度。我们通过实验证明,我们的简单框架在估计flan-ul2、llama-13b和mistral-7b的置信度方面非常有效,甚至在TriviaQA、SQuAD、CoQA和自然问题等基准数据集上,有时在AUROC上超过其他黑盒置信度估计方法超过10%。此外,我们的可解释方法提供了预测置信度的特征洞察力,这导致了一个有趣且有用的发现,即我们为一个LLM构建的置信度模型可以在给定数据集上进行零-shot泛化。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)的置信度估计问题,提出了一个简单且可扩展的框架,通过工程化新颖的特征并在这些特征上训练模型(如逻辑回归)来估计置信度。
- 关键思路本论文的关键思路是通过特征工程和训练可解释的模型来估计大型语言模型的置信度,并在多个数据集上进行了实证研究。
- 其它亮点本论文提出的方法在多个数据集上表现出色,比现有的黑盒置信度估计方法在AUROC上提高了10%以上;此外,该方法可解释性强,可以揭示对置信度预测有预测能力的特征,而且在一个数据集上构建的置信度模型可以零样本泛化到其他LLMs。
- 与本论文相关的研究包括基于深度学习的置信度估计方法,如MC Dropout、Deep Ensembles等。
沙发等你来抢
去评论
评论
沙发等你来抢