- 简介不确定性量化(UQ)越来越被认为是依赖于机器学习(ML)应用的关键组成部分。大型语言模型(LLMs)的快速增长促使研究人员寻求在文本生成任务中高效有效的UQ方法,因为除了它们新兴的能力外,这些模型还为构建安全应用程序带来了新的挑战。与其他ML模型一样,LLMs容易做出不正确的预测,通过编造声明来“幻想”,或者仅为给定输入生成低质量的输出。UQ是应对这些挑战的关键要素。然而,迄今为止针对LLMs的UQ方法的研究是分散的,评估方法也是不一致的。在这项工作中,我们通过引入一种实现一系列最先进的UQ基线的新型基准,并为各种文本生成任务中的研究人员提供可控和一致的评估环境来解决这个问题。我们的基准还支持评估置信度规范化方法,以评估其提供可解释分数的能力。使用我们的基准,我们在九个任务中进行了大规模的经验调查,研究了UQ和规范化技术中最有前途的方法。
- 图表
- 解决问题解决问题:如何在文本生成任务中对大型语言模型进行不确定性量化(UQ),以提高应用的安全性和可靠性?
- 关键思路关键思路:引入一个新的基准测试集,包含多个最先进的UQ基线模型,为研究人员在各种文本生成任务中提供可控和一致的评估环境,同时支持置信度归一化方法的评估。
- 其它亮点亮点:使用新的基准测试集进行大规模实证研究,比较不同UQ和归一化技术在九个任务中的表现;提供了一些最先进的UQ基线模型,包括Deep Ensembles、Monte Carlo Dropout等;研究人员可以使用该基准测试集进行新技术的评估和比较。
- 相关研究:目前对于大型语言模型的UQ方法研究还比较零散,缺乏统一的评估标准。已有相关研究包括《Probabilistic Language Modeling in Machine Translation》、《Uncertainty-aware Learning from Demonstration using Mixture Density Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢