To Believe or Not to Believe Your LLM

2024年06月04日
  • 简介
    我们探讨了大型语言模型(LLMs)中的不确定性量化,旨在确定在查询给定的响应中不确定性很大的时候。我们同时考虑了认识不确定性和随机不确定性,前者来自于对基本事实(例如关于事实或语言的知识)的缺乏知识,后者来自于不可降解的随机性(例如有多种可能的答案)。特别地,我们推导出了一种信息论度量方法,可以可靠地检测到只有认识不确定性很大的情况,此时模型的输出是不可靠的。这种情况可以仅基于模型的输出通过一些特殊的迭代提示计算得出。例如,这种量化可以在单个和多个答案响应中检测到幻觉(认识不确定性很高的情况)。这与许多标准的不确定性量化策略(例如通过对响应的对数似然进行阈值处理)不同,在多个答案的情况下无法检测到幻觉。我们进行了一系列实验,证明了我们的公式的优势。此外,我们的研究探讨了大型语言模型分配给特定输出的概率如何通过迭代提示得到放大,这可能是独立的研究兴趣点。
  • 图表
  • 解决问题
    该论文旨在探讨如何量化大型语言模型中的不确定性,并识别当查询的响应中存在大量不确定性时。同时考虑认知不确定性和随机不确定性,前者来自于对基本事实(如事实或语言)缺乏知识,后者来自于不可减少的随机性(如多个可能的答案)。
  • 关键思路
    该论文提出了一种基于信息论的度量方法,可以可靠地检测到只有认知不确定性很大的情况,此时模型的输出是不可靠的。这种情况可以仅基于模型的输出进行计算,而无需其他信息。这种量化方法可以检测到单个和多个答案响应中的幻觉。
  • 其它亮点
    该论文的亮点在于提出了一种新的量化不确定性的方法,可以检测到多个答案响应中的幻觉,而传统的方法无法检测到。此外,该论文还探讨了如何通过迭代提示来增强大型语言模型分配给给定输出的概率,这可能是独立研究的有趣方向。实验使用了多个数据集,并展示了该方法的优越性。
  • 相关研究
    在最近的研究中,也有一些关于大型语言模型中的不确定性的研究。例如,论文“Uncertainty Estimation in Natural Language Processing”和“Probabilistic Language Models in Information Retrieval”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论