- 简介大型语言模型(LLMs)有潜力改变法律实践,但存在法律幻觉的存在威胁了这一潜力——这些模型的回答与法律事实不一致。我们使用一个原始的法律查询套件,比较LLMs对结构化法律元数据的响应并检查其一致性,来调查这些幻觉的程度。我们的工作做出了四个关键贡献:(1)我们开发了法律幻觉的分类法,为今后在这一领域的研究提供了概念框架。(2)我们发现,当这些模型被问及有关随机联邦法院案件的具体、可验证的问题时,法律幻觉的发生率令人震惊,ChatGPT 3.5的发生率在69%至Llama 2的88%之间。(3)我们说明LLMs经常无法在反事实的问题设置中纠正用户的不正确法律假设。(4)我们提供证据表明,LLMs并不总是能够预测或知道它们正在产生法律幻觉。综合这些发现,我们警告不要迅速和无监督地将流行的LLMs整合到法律任务中。即使是经验丰富的律师也必须保持警惕,而风险最大的是那些最有可能从LLMs中受益的人——自诉当事人或那些没有传统法律资源的人。
- 图表
- 解决问题论文旨在研究大型语言模型在法律领域中出现的错误现象——法律幻觉,探究其程度和原因,并提出相应的解决方案。
- 关键思路论文通过对大型语言模型在法律领域中的表现进行实验,发现法律幻觉的出现频率较高,并提出了一些解决方案,包括对数据集的改进和模型的监督。
- 其它亮点论文开发了一种法律查询测试套件,用于评估大型语言模型在法律领域中的表现。实验结果显示,法律幻觉出现的频率较高,这对于没有传统法律资源的当事人来说尤其危险。论文提出了改进数据集和监督模型的解决方案,并探究了模型出现法律幻觉的原因。
- 在相关研究方面,近年来也有一些关于大型语言模型在法律领域中的研究,如《The Legal Language of Taxonomies: A Survey》、《Using Deep Learning to Parse Legal Texts》等。
沙发等你来抢
去评论
评论
沙发等你来抢