Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

2024年01月02日
  • 简介
    大型语言模型(LLMs)有潜力改变法律实践,但存在法律幻觉的存在威胁了这一潜力——这些模型的回答与法律事实不一致。我们使用一个原始的法律查询套件,比较LLMs对结构化法律元数据的响应并检查其一致性,来调查这些幻觉的程度。我们的工作做出了四个关键贡献:(1)我们开发了法律幻觉的分类法,为今后在这一领域的研究提供了概念框架。(2)我们发现,当这些模型被问及有关随机联邦法院案件的具体、可验证的问题时,法律幻觉的发生率令人震惊,ChatGPT 3.5的发生率在69%至Llama 2的88%之间。(3)我们说明LLMs经常无法在反事实的问题设置中纠正用户的不正确法律假设。(4)我们提供证据表明,LLMs并不总是能够预测或知道它们正在产生法律幻觉。综合这些发现,我们警告不要迅速和无监督地将流行的LLMs整合到法律任务中。即使是经验丰富的律师也必须保持警惕,而风险最大的是那些最有可能从LLMs中受益的人——自诉当事人或那些没有传统法律资源的人。
  • 图表
  • 解决问题
    论文旨在研究大型语言模型在法律领域中出现的错误现象——法律幻觉,探究其程度和原因,并提出相应的解决方案。
  • 关键思路
    论文通过对大型语言模型在法律领域中的表现进行实验,发现法律幻觉的出现频率较高,并提出了一些解决方案,包括对数据集的改进和模型的监督。
  • 其它亮点
    论文开发了一种法律查询测试套件,用于评估大型语言模型在法律领域中的表现。实验结果显示,法律幻觉出现的频率较高,这对于没有传统法律资源的当事人来说尤其危险。论文提出了改进数据集和监督模型的解决方案,并探究了模型出现法律幻觉的原因。
  • 相关研究
    在相关研究方面,近年来也有一些关于大型语言模型在法律领域中的研究,如《The Legal Language of Taxonomies: A Survey》、《Using Deep Learning to Parse Legal Texts》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论