Calibrated Large Language Models for Binary Question Answering

简介

大型语言模型（LLMs）在二元文本分类任务中预测的不确定性的量化仍然是一个挑战。在LLMs的上下文中，校准是指模型预测的概率与其预测的正确性之间的对齐。一个校准良好的模型应该产生准确反映其预测正确性可能性的概率。我们提出了一种新颖的方法，利用归纳文-艾伯斯预测器（IVAP）来校准与二元标签对应的输出标记的概率。我们在使用Llama 2模型的BoolQ数据集上进行的实验表明，IVAP始终优于常用的温度缩放方法，对于各种标签标记选择实现了良好的校准概率，同时保持高的预测质量。我们的研究结果有助于理解LLMs的校准技术，并为在二元问题回答任务中获得可靠的不确定性估计提供了实用的解决方案，增强了LLM预测的可解释性和可信度。
图表
解决问题

本论文旨在解决大型语言模型在二元文本分类任务中的预测不确定性量化问题，提出了一种新的方法来校准模型的预测概率。
关键思路

该方法使用归纳Venn-Abers预测器（IVAP）来校准与二元标签相对应的输出标记的概率，并在BoolQ数据集上使用Llama 2模型进行了实验验证。
其它亮点

该方法相比于常用的温度缩放方法，在多种标签标记选择下均能实现良好的概率校准并保持高预测质量。这有助于提高大型语言模型预测的可解释性和可信度。
相关研究

最近的相关研究包括《On Calibration of Modern Neural Networks》、《Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles》等。

Calibrated Large Language Models for Binary Question Answering

评论