- 简介最先进的大型语言模型有时作为开源软件分发,但也越来越多地作为闭源服务提供。然而,这些闭源大型语言模型通常被公众广泛使用,但它们在回答查询时通常不提供其不确定性的估计。即使最好的模型也容易在高置信度下产生“幻觉”假信息,缺乏可靠的不确定性估计限制了这些模型在关键环境中的适用性。我们通过多次重新表述原始基础查询来探索估计闭源LLM的不确定性。具体来说,我们向模型提出多个重新表述的问题,并使用答案的相似性作为不确定性的估计。我们不同于以前的工作,提供了易于记忆和实际使用的重新表述规则,并提出了一个理论框架,解释为什么多次重新表述查询可以获得校准的不确定性估计。与基线相比,我们的方法在不确定性估计的校准方面显示出显著的改进,并提供了如何设计查询策略以实现最佳测试校准的直觉。
- 图表
- 解决问题如何通过多次重新表述问题来估计封闭源大语言模型的不确定性?
- 关键思路通过提供简单易记的重新表述规则,利用多次重新表述问题并比较答案的相似性来估计封闭源大语言模型的不确定性,提出了理论框架来解释为什么多次重新表述问题可以获得校准的不确定性估计。
- 其它亮点论文提出的方法在不确定性估计方面与基线相比有显著的改进,实验结果表明多次重新表述问题可以提高模型的校准性。论文使用了封闭源大语言模型作为研究对象,提供了简单易行的重新表述规则,并提出了理论框架来解释多次重新表述问题的有效性。
- 最近的相关研究主要集中在大语言模型的不确定性估计上,例如《What uncertainties do we need in Bayesian deep learning for computer vision?》和《Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles》。
沙发等你来抢
去评论
评论
沙发等你来抢