Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost

2024年06月03日
  • 简介
    Retriever Augmented Generation (RAG)系统已成为增强语言模型能力的关键,通过整合外部知识检索机制。然而,在工业应用中部署这些系统的一个重要挑战是检测和减轻幻觉:模型生成未基于检索上下文的信息的情况。解决这个问题对于确保大型语言模型(LLM)在不同的工业环境中生成的响应的可靠性和准确性至关重要。当前的幻觉检测技术无法同时提供准确性、低延迟和低成本。我们介绍了Luna:一个经过DeBERTA-large(440M)编码器微调的幻觉检测器,适用于RAG环境。我们证明Luna在幻觉检测任务上优于GPT-3.5和商业评估框架,分别降低了97%和91%的成本和延迟。Luna轻量级且适用于多个工业垂直领域和域外数据,是工业LLM应用的理想选择。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题的关键是RAG系统中幻觉的检测和缓解,以确保大型语言模型在各种行业环境中生成的响应的可靠性和准确性。
  • 关键思路
    使用经过微调的DeBERTA-large编码器来检测RAG设置中的幻觉,Luna相对于GPT-3.5和商业评估框架在幻觉检测任务中具有更高的准确性、更低的成本和延迟。
  • 其它亮点
    实验结果表明Luna在幻觉检测任务上的表现优于GPT-3.5和商业评估框架,成本和延迟分别降低了97%和91%。Luna轻量级且适用于多个行业垂直领域和域外数据,是行业LLM应用的理想选择。
  • 相关研究
    近期相关研究包括:1.《Improving Retrieval-Augmented Generation with Unlabeled Data》;2.《Hallucination Detection in Text》;3.《Detecting Hallucinations in Conversational Agents》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问