Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost

2024年06月03日
  • 简介
    Retriever Augmented Generation (RAG)系统已成为提升语言模型能力的关键,通过整合外部知识检索机制。然而,在将这些系统应用于工业应用时,一个重要的挑战是检测和减轻幻觉:模型生成的信息没有基于检索到的上下文。解决这个问题对于确保大型语言模型(LLMs)在不同工业环境中生成的响应的可靠性和准确性至关重要。目前的幻觉检测技术无法同时提供准确性、低延迟和低成本。我们介绍了Luna:一个在RAG设置中进行幻觉检测的DeBERTA-large(440M)编码器。我们证明Luna在幻觉检测任务上优于GPT-3.5和商业评估框架,分别降低了97%和96%的成本和延迟。Luna轻巧并且可以推广到多个工业垂直和领域外数据,使其成为工业LLM应用的理想选择。
  • 图表
  • 解决问题
    解决问题的问题是如何检测和减轻RAG系统中的幻觉,以确保大语言模型在不同行业设置中生成可靠和准确的响应。
  • 关键思路
    论文介绍了Luna,一个DeBERTA-large编码器,用于在RAG设置中进行幻觉检测。Luna比GPT-3.5和商业评估框架在幻觉检测任务上表现更好,同时降低了97%和96%的成本和延迟。
  • 其它亮点
    论文的亮点包括Luna的轻量级和跨多个行业垂直和域外数据的泛化能力,实验使用了哪些数据集,开源代码等。值得深入研究的是,当前的幻觉检测技术无法同时提供准确性、低延迟和低成本。
  • 相关研究
    最近的相关研究包括“Retriever-Augmented Generation for Knowledge-Intensive NLP Tasks”和“Knowledge Enhanced Contextual Word Representations for Text Classification”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论