Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering

2024年05月23日
  • 简介
    大型语言模型(LLMs)被广泛用于寻求知识,但存在幻觉的问题。LLMs的知识边界(KB)限制了它的事实理解,超出了这个范围,它可能开始产生幻觉。研究LLMs的KB感知对于检测幻觉和LLMs的可靠生成至关重要。目前的研究主要通过对具有具体答案的问题(封闭式问题)的理解来感知LLMs的KB,但对于对应于许多潜在答案的半开放式问题(SoeQ),研究有限。一些研究人员通过判断问题是否可回答来实现这一点。然而,这种范式不适用于SoeQ,这些问题通常是部分可回答的,包含可回答和模糊(不可回答)的答案。模糊的答案对于寻求知识至关重要,但它们可能超出LLMs的KB。在本文中,我们通过发现更多的模糊答案来感知LLMs的SoeQ的KB。首先,我们采用基于LLM的方法构建SoeQ,并从目标LLM中获取答案。不幸的是,主流的黑匣子LLMs的输出概率对于低概率的模糊答案来说是无法采样的。因此,我们采用一个开源的辅助模型来探索目标LLM的模糊答案。我们计算现有答案的最近语义表示以估计它们的概率,通过这些概率,我们减少高概率答案的生成概率,以实现更有效的生成。最后,我们将基于RAG的评估结果与LLM自我评估结果进行比较,将超出目标LLM的KB的四种类型的模糊答案进行分类。按照我们的方法,我们构建了一个数据集来感知GPT-4的KB。我们发现GPT-4在SoeQ上表现不佳,并且经常不知道它的KB。此外,我们的辅助模型LLaMA-2-13B在发现更多的模糊答案方面是有效的。
  • 图表
  • 解决问题
    本文旨在探究大型语言模型(LLMs)的知识边界(KB)对于半开放式问题的理解能力,并提出一种方法来发现LLMs的KB。当前研究主要关注于具有具体答案的问题,而对于具有多个可能答案的半开放式问题关注较少。
  • 关键思路
    通过使用一个开源辅助模型来探索LLMs的KB,发现更多的模糊答案。该模型计算现有答案的最近语义表示以估计它们的概率,并降低高概率答案的生成概率,以实现更有效的生成。最终,通过与RAG评估和LLM自我评估的结果进行比较,将超出目标LLM KB的四种类型的模糊答案进行分类。
  • 其它亮点
    本文提出了一种新的方法来探索LLMs的KB,以更好地理解半开放式问题。通过构建一个数据集来感知GPT-4的KB,发现GPT-4在半开放式问题上表现不佳,并经常不知道自己的KB。此外,作者提出的辅助模型LLaMA-2-13B在发现更多模糊答案方面非常有效。
  • 相关研究
    最近的相关研究包括:《GPT-3:一种自然语言处理神经网络》、《BERT:预训练深度双向Transformer模型用于自然语言处理》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论