Head-to-Tail: How Knowledgeable are Large Language Models (LLM)? A.K.A. Will LLMs Replace Knowledge Graphs?

Kai Sun, Yifan Ethan Xu, Hanwen Zha, Yue Liu, Xin Luna Dong
[Meta Reality Labs]

Head-to-Tail:大型语言模型知识水平如何?LLM能否取代知识图谱?

要点:

  • 提出一个新的基准测试数据集Head-to-Tail,用于评估大型语言模型内化了多少事实知识,特别是对于头部、主体和尾部事实的掌握。
  • 头部事实指流行实体和关系,其训练数据丰富。尾部事实关于晦涩的长尾实体,其数据稀疏。主体事实处于两者之间。
  • 通过对14个语言模型的全面评估,论文显示它们在回答简单事实性问题上的准确率从头部事实到尾部事实急剧下降。
  • 即使对于超级流行的头部实体,最佳的语言模型也只能正确回答大约30-50%的问题,对于尾部实体,准确率通常是个位数。
  • 增加模型规模不一定能可靠地提高事实性。比如较大的LLaMA-65B没有优于较小的LLaMA-33B。
  • 指令微调以使模型更诚实地表示不确定的回答有助于减少幻觉,但对提高事实性帮助不大。
  • 论文认为与知识图谱相比,语言模型在事实知识方面仍存在不足,特别是对主体和尾部事实,需要混合方法。
  • Head-to-Tail基准和分析方法论对评估语言模型的事实知识具有重要价值。

动机:回答关于大型语言模型(LLM)的知识水平的问题,特别是在处理事实知识方面的能力。
方法:构建了名为Head-to-Tail的评估基准,包含了18000个关于头、主体和尾部事实的问答对。通过设计自动化评估方法和一组衡量LLM内部化知识的指标,对14个公开可用的LLM进行了全面评估。
优势:揭示了现有LLM在掌握事实知识方面仍然不完善的问题,特别是对于torso-to-tail实体的事实。这对于提高LLM的可靠性和减少幻觉回应具有重要的指导意义。

一句话总结: 通过新的评估方法,揭示了现有大型语言模型在掌握事实知识方面的不足,并讨论了如何提高模型的可靠性。

https://arxiv.org/abs/2308.10168 


图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除