- 简介法律实践中出现了大量应用人工智能(AI)的产品。这些工具旨在协助各种核心法律任务,从案例法的搜索和摘要到文件起草。但是,这些工具中使用的大型语言模型容易出现“幻觉”,即编造虚假信息,因此在高风险领域使用这些工具具有风险。最近,某些法律研究提供商宣传了检索增强生成(RAG)等方法,声称可以“消除”(Casetext,2023年)或“避免”幻觉(汤森路透,2023年),或保证“不会出现幻觉”的法律引文(LexisNexis,2023年)。由于这些系统的封闭性,系统地评估这些声明具有挑战性。本文设计并报告了第一个预注册的AI驱动的法律研究工具的实证评估。我们证明了提供商的声明是夸大的。虽然与通用聊天机器人(GPT-4)相比,幻觉现象有所减少,但我们发现,由LexisNexis(Lexis+ AI)和汤森路透(Westlaw AI-Assisted Research和Ask Practical Law AI)制作的AI研究工具每次都有17%至33%的幻觉。我们还记录了系统响应速度和准确性方面的显着差异。本文有四个关键贡献。首先,它是第一个评估和报告基于RAG的专有法律AI工具性能的文章。其次,它介绍了一个全面的、预注册的数据集,用于识别和理解这些系统的漏洞。第三,它提出了一个清晰的分类法,以区分幻觉和准确的法律回答。最后,它提供了证据,以便了解法律专业人员在监督和验证AI输出方面的责任,这仍然是将AI负责地整合到法律中的一个核心问题。
- 图表
- 解决问题评估AI驱动的法律研究工具的表现,特别是针对其产生的谬误的数量和质量进行评估。
- 关键思路本文设计并报告了首个经过预注册的AI驱动法律研究工具的实证评估,发现这些工具产生的谬误数量和质量都高于供应商的宣传。提出了一种清晰的区分谬误和准确法律回复的分类法。
- 其它亮点实验设计了一个全面的数据集来识别和理解这些系统中的漏洞。介绍了基于RAG的专有法律AI工具的性能评估。提供了证据以指导法律专业人员在监督和验证AI输出时的责任。
- 最近的相关研究包括使用AI辅助的法律研究、基于语言模型的AI自动摘要和文档生成等。
沙发等你来抢
去评论
评论
沙发等你来抢