Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

简介

大型语言模型（LLMs）有潜力改变法律实践，但存在法律幻觉的存在威胁了这一潜力——这些模型的回答与法律事实不一致。我们使用一个原始的法律查询套件，比较LLMs对结构化法律元数据的响应并检查其一致性，来调查这些幻觉的程度。我们的工作做出了四个关键贡献：（1）我们开发了法律幻觉的分类法，为今后在这一领域的研究提供了概念框架。（2）我们发现，当这些模型被问及有关随机联邦法院案件的具体、可验证的问题时，法律幻觉的发生率令人震惊，ChatGPT 3.5的发生率在69%至Llama 2的88%之间。（3）我们说明LLMs经常无法在反事实的问题设置中纠正用户的不正确法律假设。（4）我们提供证据表明，LLMs并不总是能够预测或知道它们正在产生法律幻觉。综合这些发现，我们警告不要迅速和无监督地将流行的LLMs整合到法律任务中。即使是经验丰富的律师也必须保持警惕，而风险最大的是那些最有可能从LLMs中受益的人——自诉当事人或那些没有传统法律资源的人。
图表
解决问题

论文旨在研究大型语言模型在法律领域中出现的错误现象——法律幻觉，探究其程度和原因，并提出相应的解决方案。
关键思路

论文通过对大型语言模型在法律领域中的表现进行实验，发现法律幻觉的出现频率较高，并提出了一些解决方案，包括对数据集的改进和模型的监督。
其它亮点

论文开发了一种法律查询测试套件，用于评估大型语言模型在法律领域中的表现。实验结果显示，法律幻觉出现的频率较高，这对于没有传统法律资源的当事人来说尤其危险。论文提出了改进数据集和监督模型的解决方案，并探究了模型出现法律幻觉的原因。
相关研究

在相关研究方面，近年来也有一些关于大型语言模型在法律领域中的研究，如《The Legal Language of Taxonomies: A Survey》、《Using Deep Learning to Parse Legal Texts》等。

Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

评论