RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following

向作者提问

NEW

简介

基于评分标准的评估已成为衡量大语言模型（LLMs）指令遵循能力的主流范式。然而，尽管该方法被广泛采用，其在评分标准层级上的评估结果可靠性仍不明确，亟需开展元评估（meta-evaluation）。遗憾的是，既往元评估工作大多聚焦于响应层面（response level），未能深入检验基于评分标准的评估所依赖的细粒度判断准确性。为弥补这一空白，我们提出了RubricEval。本基准具备以下三大特点：（1）首个面向指令遵循任务、专用于评分标准层级的元评估基准；（2）涵盖多类别、多模型来源的多样化指令与响应；（3）包含3486个经过严格质量控制的样本，并进一步划分为“易”与“难”两个子集，从而更有效地区分不同评估者（judge）的判别能力。我们的实验表明，评分标准层级的判断能力远未达到成熟水平：即便是当前指令遵循评测中被广泛用作评估者的GPT-4o，在“难”子集上的准确率也仅为55.97%。就评估范式而言，评分标准层级的评估优于检查清单（checklist）层级；显式推理（explicit reasoning）可提升判断准确率；而将二者结合则能进一步降低评估者间差异（inter-judge variance）。此外，依托我们构建的评分标准分类体系（rubric taxonomy），我们系统识别出若干常见失效模式，并为构建可靠、稳健的指令遵循评估方法提供了切实可行的改进建议。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于评分标准（rubric-based）的指令遵循评估方法缺乏对评估过程本身可靠性的元评估，尤其是缺乏在评分标准层级（而非响应层级）上对人工或模型裁判判断准确性的系统性验证。这是一个新问题，因为先前的元评估工作主要聚焦于响应层面的质量比较，而忽略了rubric-level judgment的细粒度准确性这一核心前提。
关键思路

提出RubricEval——首个专为指令遵循任务设计的、以评分标准为单位的元评估基准；通过构建高质量、细粒度标注的裁判判断真值（ground-truth rubric judgments），直接评估裁判（人或模型）在给定rubric维度上判定响应是否达标的能力；引入Easy/Hard子集与rubric分类法，支持对判断难度和失败模式的归因分析。
其它亮点

包含3,486个质量可控实例，覆盖多类指令（如事实性、格式、安全、推理）及多源模型响应（Llama、Qwen、GPT等）；实验发现GPT-4o在Hard子集上仅达55.97%准确率，揭示当前主流裁判模型存在严重局限；证实显式推理+rubric-level范式可显著降低评委间方差；已开源数据与评估协议（https://github.com/RubricEval/RubricEval）；未来方向包括：可解释裁判建模、rubric自适应难度校准、人类裁判认知偏差建模。
相关研究

1. AlpacaEval 2.0 (Li et al., 2024); 2. Arena-Hard (Ding et al., 2024); 3. HELM Instruction Following (Liang et al., 2023); 4. JudgE (Zhang et al., 2024); 5. RubricAI (Chen et al., 2023, workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问