Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

2025年11月30日
  • 简介
    在专业领域(如法律)中,评估大语言模型生成的推理过程的质量对于确保其可信度和可解释性至关重要,但由于此类推理任务本身具有高度复杂性,这一评估仍然面临挑战。我们提出了LEGIT(法律争议树),一种新颖的大规模(24,000个实例)、专家级别的法律推理数据集,专注于推理过程的评估。我们将法院判决转化为对立双方论点与法院结论构成的层次化树状结构,并以此作为评估推理过程在议题覆盖范围和正确性方面的评分标准。我们通过人类专家标注以及与粗糙、信息量较低的评分标准进行比较,验证了这些评分标准的可靠性。基于LEGIT数据集的研究表明:(1)大语言模型的法律推理能力受到法律议题覆盖范围和推理正确性的显著影响;(2)结合检索增强生成(RAG)与基于评分标准的强化学习(RL)能为法律推理能力带来互补性提升——其中RAG有助于整体推理能力的增强,而RL则能提高推理的正确性,尽管可能以牺牲部分覆盖范围为代价。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何评估大模型在专业领域(如法律)中生成的推理链的质量问题。由于法律推理复杂且需要高度准确性,现有的评估方法往往不够精细或缺乏可解释性,因此需要一种更系统、可靠的方式来衡量模型推理过程中的问题覆盖度和正确性。这是一个重要但尚未充分解决的问题,尤其是在高风险领域如法律中。
  • 关键思路
    提出LEGIT——一个包含2.4万实例的大规模法律推理数据集,将法院判决转化为对立双方论点与法院结论构成的层次化论证树,作为评估推理链质量的细粒度评分标准。这种结构化的‘问题树’不仅支持对模型输出的全面性和正确性进行量化评估,还为训练(如强化学习)提供监督信号,从而提升推理质量。
  • 其它亮点
    使用人类专家标注验证了论证树作为评估标准的可靠性,并证明其优于粗粒度评分方式;实验表明当前LLM在法律推理中存在覆盖不全与结论错误双重缺陷;引入RAG+RL双路径改进:RAG提升整体推理广度,RL通过rubric监督提升正确性但可能牺牲部分覆盖;数据集规模大、质量高,具备长期研究价值;虽未明确提及开源代码,但数据集本身极具共享潜力,值得后续用于评测与训练。
  • 相关研究
    1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Self-Consistency Improves Chain of Thought Reasoning in Language Models 3. Faithful Reasoning Using Retrieval-Augmented Generation 4. Reinforcement Learning from Human Feedback for Legal Text Generation 5. LegalBench: A Multi-task Benchmark for Legal Language Understanding
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问