LUQ: Long-text Uncertainty Quantification for LLMs

2024年03月29日
  • 简介
    大型语言模型(LLMs)在各种自然语言处理任务中展现出了非凡的能力。尽管它们很有效,但这些模型往往会生成非事实内容。不确定性量化(UQ)在增强我们对模型生成内容的信心方面起着关键作用,从而有助于减少非事实输出。现有的UQ研究主要针对短文本生成,通常会产生简短的、词数有限的回答。然而,实际应用通常需要更长的回答。我们的研究首先强调了当前UQ方法在处理长文本生成方面的局限性。然后,我们介绍了一种名为\textsc{Luq}的新型基于采样的UQ方法,专门为长文本设计。我们的研究结果表明,\textsc{Luq}在与模型的事实得分相关性方面优于现有的基线方法(对于Gemini Pro观察到-0.85的负相关系数)。通过将\textsc{Luq}作为UQ工具,我们调查了几种流行的LLMs响应置信度谱的行为模式以及它们与响应事实性的相互作用。我们发现,LLMs在生成罕见事实的长文本方面缺乏信心,而事实上强大的模型(例如GPT-4)往往会拒绝它不确定的问题。为了进一步提高LLM响应的事实准确性,我们提出了一种名为\textsc{Luq-Ensemble}的方法,该方法将多个模型的响应集成起来,并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实准确性,超过了最佳独立LLM。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型在生成文本时可能产生的非事实性内容的问题,并提出一种新的不确定性量化方法,特别针对长文本生成。
  • 关键思路
    该论文提出了一种名为Luq的基于采样的不确定性量化方法,针对长文本生成,并通过实验表明其优于现有基线方法。此外,论文还提出了一种名为Luq-Ensemble的方法,通过集成多个模型的响应并选择不确定性最小的响应来提高响应的事实准确性。
  • 其它亮点
    论文发现大型语言模型在生成长文本中缺乏对罕见事实的信心,并且事实上强的模型倾向于拒绝它不确定的问题。实验使用了多个数据集,并且提供了开源代码。
  • 相关研究
    最近的相关研究包括基于不确定性量化的其他方法,如Dropout、Bootstrapping和Bayesian方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论