Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends

向作者提问

NEW

简介

最近大型语言模型（LLM）的进展大大提高了摘要系统的能力。然而，它们仍然面临幻觉的问题。虽然以前的研究已经广泛评估了新闻领域中的LLM，但大多数对话摘要的评估都集中在基于BART的模型上，这导致我们对它们的忠实度理解存在差距。我们的工作使用人工注释来评估LLM在对话摘要中的忠实度，重点是识别和分类跨度级别的不一致性。具体而言，我们专注于两个著名的LLM：GPT-4和Alpaca-13B。我们的评估揭示了构成幻觉的微妙之处：LLM经常生成看似合理的推论，这些推论由对话中的情境证据支持，但缺乏直接证据，这种模式在旧模型中不太普遍。我们提出了一个精细的错误分类法，将这些LLM行为归为“情境推论”类别，并发布了数据集。使用我们的分类法，我们比较了LLM和旧的微调模型之间的行为差异。此外，我们系统地评估了自动错误检测方法在LLM摘要上的有效性，并发现它们难以检测到这些微妙的错误。为了解决这个问题，我们引入了两种基于提示的方法进行细粒度的错误检测，特别是用于识别“情境推论”。这些方法优于现有的指标。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在评估对话摘要中大型语言模型（LLMs）的忠实度，并提出一种新的错误分类方法。同时，研究发现LLMs生成的推理有时缺乏直接证据，而是基于环境证据，这是老模型不具备的行为模式。
关键思路

论文提出了一种新的错误分类方法，称为“环境推理”，用于区分LLMs生成的推理是否有直接证据支持。同时，研究发现自动错误检测方法难以检测到这些微妙的错误。
其它亮点

论文使用人工注释的方法评估了GPT-4和Alpaca-13B两个LLMs的忠实度，并提出了一种新的错误分类方法。研究发现LLMs生成的推理有时缺乏直接证据，而是基于环境证据，这是老模型不具备的行为模式。论文还介绍了两种基于提示的方法，用于检测LLMs生成的微妙错误，实验结果表明这些方法比现有的指标更有效。
相关研究

在对话摘要领域，之前的研究主要集中在BART模型上，本文则评估了GPT-4和Alpaca-13B两个LLMs的忠实度。此外，最近的相关研究包括“Improving Faithfulness in Abstractive Summarization with Contrastive Learning”和“Extractive Summarization with Faithful Content Selection and Delivery”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问