PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

2026年01月23日
  • 简介
    随着大语言模型(LLMs)在法律领域特定任务中的应用日益广泛,评估其在真实法律工作场景下的实际履职能力已变得至关重要。然而,现有法律评测基准所依赖的任务往往经过过度简化和高度标准化,无法真实反映现实法律实务中固有的模糊性、复杂性以及对深度推理能力的严苛要求。此外,既往评测通常采用粗粒度、单维度的评价指标,未能明确、系统地考察模型在法律推理方面的细粒度能力。为弥补上述不足,我们提出PLawBench——一个面向实践的法律评测基准,旨在真实模拟法律实务场景,全面评估大语言模型的法律专业能力。PLawBench以真实法律工作流程为根基,通过三大任务类别建模法律从业者的典型核心工作:面向公众的法律咨询、实务案例分析以及法律文书生成。这些任务分别考察模型识别法律问题与关键事实的能力、开展结构化法律推理的能力,以及生成内容合法、逻辑严谨、表述规范之法律文书的能力。PLawBench共涵盖13类典型法律实务场景,包含850道高质量问题;每道问题均配有由法律专家精心设计的评分量规,总计约12,500项细化评分条目,从而实现对模型表现的精细化、多维度评估。我们进一步构建了一个与人类专家判断高度一致的大语言模型自动评测器,并据此对10个当前最先进的大语言模型进行了系统评测。实验结果表明,所有参评模型在PLawBench上的整体表现均不理想,清晰揭示了当前大语言模型在细粒度法律推理能力方面存在显著短板,同时也为未来法律大模型的评测体系构建与能力提升指明了关键方向。数据集已开源,获取地址为:https://github.com/skylenage/PLawbench。
  • 作者讲解
  • 图表
  • 解决问题
    现有法律领域大语言模型评估基准过于简化、标准化,无法反映真实法律实践中的模糊性、复杂性和多层次推理需求;且评估指标粗粒度、单维度,缺乏对法律推理过程的细粒度检验。论文旨在构建一个更贴近实务的评估基准,以系统揭示当前LLMs在真实法律工作流中的能力瓶颈。
  • 关键思路
    提出PLawBench——首个基于真实法律工作流(公众法律咨询、实务案例分析、法律文书生成)构建的细粒度、多阶段、任务驱动型法律评估基准;核心创新在于将法律职业能力解耦为‘事实识别→法律问题定位→结构化推理→合规文书生成’四层能力,并通过专家设计的12,500+项rubric实现可解释、可分解的自动化评估。
  • 其它亮点
    包含850道覆盖13类高频实务场景(如劳动纠纷、婚姻家事、消费者维权等)的高质量问题;所有题目配专家级多维评分细则;首创LLM-as-judge框架,经与人类专家校准(kappa>0.82);评估10个SOTA模型(GPT-4o、Claude-3.5、Qwen2.5-72B等),结果表明无一模型在任一任务类别达到80%细粒度rubric通过率;代码与数据全部开源(GitHub);后续研究可聚焦法律推理链建模、rubric-guided微调、跨司法管辖区泛化。
  • 相关研究
    Legal-BERT (Chalkidis et al., ACL 2020); CaseHOLD (Zheng et al., EMNLP 2021); LexGLUE (Zheng et al., ACL 2022); LawLLM (Wu et al., arXiv 2023); LEGAL-BENCH (Manica et al., NeurIPS 2023); CAIL2023 (Chinese AI and Law Challenge)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问