- 简介大型语言模型的应用通常涉及生成自由形式的响应,此时不确定性量化变得具有挑战性。这是由于需要识别任务特定的不确定性(例如,关于语义的不确定性),在一般情况下似乎很难定义。本研究从贝叶斯决策理论的角度解决了这些挑战,从假设我们的效用由比较生成的响应与假设的真实响应的相似度度量来开始。我们讨论了这种假设如何使模型的主观不确定性及其校准得到了合理的量化。我们进一步基于缺失数据的角度推导出了一种表征为过度风险的认知不确定性度量。所提出的度量可以应用于黑盒语言模型。我们在问答和机器翻译任务中展示了所提出的方法,它们从GPT和Gemini模型中提取出广义有意义的不确定性估计,并量化了它们的校准。
- 图表
- 解决问题论文试图从贝叶斯决策理论的角度解决大型语言模型生成自由形式响应时的不确定性量化问题,尤其是在识别特定任务不确定性方面的挑战。
- 关键思路论文从一个假设出发,即我们的效用由一种相似度量来描述,该相似度量将生成的响应与假设的真实响应进行比较。通过这种假设,论文提出了一种量化模型主观不确定性和其校准的方法,并进一步推导出一种基于缺失数据视角的认知不确定性测量方法。
- 其它亮点论文提出的方法可以应用于黑盒语言模型,并在问答和机器翻译任务中展示了其效果。实验结果表明,该方法可以从GPT和Gemini模型中提取出广义的有意义的不确定性估计,并量化它们的校准。
- 最近的相关研究包括《Uncertainty Estimation in Deep Learning》、《A Comprehensive Survey on Uncertainty Quantification in Deep Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢