LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models
N Guha, J Nyarko, D E. Ho, C Ré, A Chilton, A Narayana…
[Stanford University & University of Chicago & …]
LegalBench:协同构建的用于衡量大型语言模型法律推理能力的基准
-
介绍了LEGALBENCH,一个新的基准,用于测量大型语言模型(LLM)的法律推理技能,LEGALBENCH包含162个任务,涵盖6种法律推理类型。
-
LEGALBENCH是通过法律专家和AI研究人员的跨学科合作创建的,这有助于确保任务对法律界有用并且有趣。
-
论文认为当前的LLM基准测试有局限性,例如更注重监督训练而不是少样本提示,LEGALBENCH的任务是专门为少样本评估设计的。
-
LEGALBENCH中的6种法律推理类别是从律师使用的法律推理框架中提炼出来的(例如IRAC),这有助于将LLM的表现转化为律师熟悉的概念。
-
论文在LEGALBENCH上评估了20个LLM,发现不同模型和任务类型之间的表现存在显著差异,没有LLM可以在所有技能上占优。
-
提示工程,如提供规则描述、使用简单语言和选择演示示例,显著影响LEGALBENCH上的表现,凸显了进一步研究的必要性。
-
论文认为LEGALBENCH显示了律师在AI基准测试方面的协作价值,法律专业知识有助于确保基准测试能测量有用的技能,并促进对法律界有利的研究。
动机:随着大型语言模型(LLM)的出现和在法律界的应用,人们开始关注LLM能进行哪些类型的法律推理。为了更好地研究这个问题,作者提出LEGALBENCH,这是一个由多个学科共同构建的法律推理基准,包含162个任务,涵盖了六种不同类型的法律推理。
方法:LEGALBENCH是通过跨学科的方式构建的,作者们收集了由法律专业人员设计和手工制作的任务。这些任务要么衡量了实际有用的法律推理能力,要么衡量了律师们感兴趣的推理技巧。此外,作者还展示了如何将描述法律推理的流行法律框架与LEGALBENCH的任务相对应,从而为律师和LLM开发人员提供了共同的词汇。
优势:LEGALBENCH提供了一个全面的法律推理基准,可以用于评估各种开源和商业LLM的性能。它还促进了跨学科的对话,帮助研究人员和从业人员更好地理解和应用LLM在法律领域的潜力。
LEGALBENCH是一个由多个学科共同构建的法律推理基准,旨在评估大型语言模型在法律推理中的性能,并促进跨学科的对话。
https://arxiv.org/abs/2308.11462
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢