Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models

2024年03月11日
  • 简介
    大型语言模型(LLMs)中的幻觉是指LLMs产生的响应在逻辑上是连贯的,但事实上是不准确的现象。这个问题削弱了LLMs在实际应用中的有效性,需要研究如何检测和减轻LLMs的幻觉。以前的研究主要集中在幻觉检测的后处理技术上,这些技术往往计算密集且有效性有限,因为它们与LLM的推理过程分离。为了克服这些限制,我们介绍了MIND,这是一个无监督训练框架,利用LLMs的内部状态进行实时幻觉检测,而不需要手动注释。此外,我们提出了HELM,这是一个新的基准,用于评估跨多个LLMs的幻觉检测,具有多样化的LLM输出和LLMs推理过程中的内部状态。我们的实验表明,MIND在幻觉检测方面优于现有的最先进方法。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型(LLMs)产生幻觉的问题,其产生的响应在逻辑上是连贯的,但事实上是不准确的。这个问题影响了LLMs在实际应用中的有效性,需要研究检测和减轻LLMs的幻觉。此前的研究主要集中在幻觉检测的后处理技术上,这些技术往往在计算上是密集的,由于与LLMs的推理过程分离而受到限制。因此,本文提出了MIND,一种无监督训练框架,利用LLMs的内部状态进行实时幻觉检测,无需手动注释。此外,本文还提出了HELM,这是一个新的基准,用于评估跨多个LLMs的幻觉检测,具有多样化的LLMs输出和LLMs推理过程中的内部状态。我们的实验表明,MIND在幻觉检测方面优于现有的最先进方法。
  • 关键思路
    本文提出了一种无监督的训练框架MIND,利用LLMs的内部状态进行实时幻觉检测,无需手动注释。相比之前的后处理技术,MIND更加高效和准确。
  • 其它亮点
    本文提出了MIND框架,可以实时检测LLMs的幻觉,无需手动注释;同时提出了HELM基准,用于评估LLMs的幻觉检测。实验结果表明,MIND在幻觉检测方面优于现有的最先进方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《GPT Understands, Too》、《Detecting and Correcting Text Inference Errors with Style-Aware Sequence-to-Sequence Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论