- 简介最近大型语言模型(LLM)的进展大大提高了摘要系统的能力。然而,它们仍然面临幻觉的问题。虽然以前的研究已经广泛评估了新闻领域中的LLM,但大多数对话摘要的评估都集中在基于BART的模型上,这导致我们对它们的忠实度理解存在差距。我们的工作使用人工注释来评估LLM在对话摘要中的忠实度,重点是识别和分类跨度级别的不一致性。具体而言,我们专注于两个著名的LLM:GPT-4和Alpaca-13B。我们的评估揭示了构成幻觉的微妙之处:LLM经常生成看似合理的推论,这些推论由对话中的情境证据支持,但缺乏直接证据,这种模式在旧模型中不太普遍。我们提出了一个精细的错误分类法,将这些LLM行为归为“情境推论”类别,并发布了数据集。使用我们的分类法,我们比较了LLM和旧的微调模型之间的行为差异。此外,我们系统地评估了自动错误检测方法在LLM摘要上的有效性,并发现它们难以检测到这些微妙的错误。为了解决这个问题,我们引入了两种基于提示的方法进行细粒度的错误检测,特别是用于识别“情境推论”。这些方法优于现有的指标。
-
- 图表
- 解决问题本论文旨在评估对话摘要中大型语言模型(LLMs)的忠实度,并提出一种新的错误分类方法。同时,研究发现LLMs生成的推理有时缺乏直接证据,而是基于环境证据,这是老模型不具备的行为模式。
- 关键思路论文提出了一种新的错误分类方法,称为“环境推理”,用于区分LLMs生成的推理是否有直接证据支持。同时,研究发现自动错误检测方法难以检测到这些微妙的错误。
- 其它亮点论文使用人工注释的方法评估了GPT-4和Alpaca-13B两个LLMs的忠实度,并提出了一种新的错误分类方法。研究发现LLMs生成的推理有时缺乏直接证据,而是基于环境证据,这是老模型不具备的行为模式。论文还介绍了两种基于提示的方法,用于检测LLMs生成的微妙错误,实验结果表明这些方法比现有的指标更有效。
- 在对话摘要领域,之前的研究主要集中在BART模型上,本文则评估了GPT-4和Alpaca-13B两个LLMs的忠实度。此外,最近的相关研究包括“Improving Faithfulness in Abstractive Summarization with Contrastive Learning”和“Extractive Summarization with Faithful Content Selection and Delivery”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流