Cycles of Thought: Measuring LLM Confidence through Stable Explanations

2024年06月05日
  • 简介
    在许多高风险的机器学习应用中,模型指示其对预测不确定性的判断非常关键。虽然大型语言模型(LLMs)在各种基准测试中可以达到甚至超越人类水平的准确性,但它们在错误响应方面的过度自信仍然是一个被广泛记录的失败模式。传统的机器学习不确定性量化方法可能很难直接适应LLMs,因为实现的计算成本和许多模型的闭源性质。最近提出了各种黑盒方法,但这些方法通常依赖于自我表达信心等启发式方法。相反,我们提出了一个框架,用于测量LLM相对于生成的答案解释分布的不确定性。虽然利用解释本身并不是一个新想法,但通过将每个可能的模型+解释对解释为测试时分类器,我们可以计算出最可能的这些分类器的后验答案分布。我们演示了使用解释蕴含作为我们分类器似然的特定实例的框架如何在五个不同数据集上改善置信度得分指标(特别是AURC和AUROC)与基线相比。我们相信这些结果表明,我们的框架既是一个有原则的,又是一种有效的量化LLMs不确定性的方法。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型在预测时过于自信的问题,提出了一种基于解释的不确定性量化框架。
  • 关键思路
    论文提出了一种基于解释的不确定性量化框架,通过将每个可能的模型和解释组合解释为一个测试时分类器,计算出最可能的这些分类器的后验答案分布,从而量化模型的不确定性。
  • 其它亮点
    论文使用解释包含作为分类器似然的特定实例,展示了该框架如何在五个不同的数据集上提高置信度得分指标(特别是AURC和AUROC),并认为这些结果表明该框架既是一个基于原则的,又是一种有效的量化大型语言模型不确定性的方法。
  • 相关研究
    最近的相关研究包括基于贝叶斯方法的不确定性量化和基于自适应推断的不确定性量化等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问