Full-ECE: A Metric For Token-level Calibration on Large Language Models

2024年06月17日
  • 简介
    深度神经网络在各个领域表现出色,但在提供准确的不确定性估计方面面临挑战,而这对于高风险应用至关重要。大型语言模型最近成为强大的工具,在语言任务中表现出色。然而,传统的校准度量,如期望校准误差(ECE)和类内-ECE(cw-ECE),对于大型语言模型来说是不足的,因为它们具有庞大的词汇量、数据复杂性和分布焦点。为解决这个问题,我们提出了一个新的校准概念,称为完全校准,并引入了相应的度量,即完全ECE。完全ECE评估整个预测概率分布,为大型语言模型提供了更准确、更健壮的校准度量。
  • 图表
  • 解决问题
    解决问题:论文旨在解决大语言模型(LLMs)中提供准确不确定性估计的挑战,提出了一种新的校准概念和相应的度量方法。
  • 关键思路
    关键思路:论文提出了一种新的校准概念——完全校准,并引入相应的度量方法——Full-ECE,评估整个预测概率分布,为LLMs提供更准确、更稳健的校准度量。
  • 其它亮点
    亮点:论文设计了实验,使用了多个数据集,提出的Full-ECE方法在LLMs中表现出更好的校准性能,具有更高的可靠性和稳定性。论文还提出了一些未来研究的方向,如进一步探索完全校准的概念和方法在其他模型中的应用。
  • 相关研究
    相关研究:最近的相关研究包括《On Calibration of Modern Neural Networks》、《Measuring Calibration in Deep Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论