- 简介基于评分标准的评估已成为衡量大语言模型(LLMs)指令遵循能力的主流范式。然而,尽管该方法被广泛采用,其在评分标准层级上的评估结果可靠性仍不明确,亟需开展元评估(meta-evaluation)。遗憾的是,既往元评估工作大多聚焦于响应层面(response level),未能深入检验基于评分标准的评估所依赖的细粒度判断准确性。为弥补这一空白,我们提出了RubricEval。本基准具备以下三大特点:(1)首个面向指令遵循任务、专用于评分标准层级的元评估基准;(2)涵盖多类别、多模型来源的多样化指令与响应;(3)包含3486个经过严格质量控制的样本,并进一步划分为“易”与“难”两个子集,从而更有效地区分不同评估者(judge)的判别能力。我们的实验表明,评分标准层级的判断能力远未达到成熟水平:即便是当前指令遵循评测中被广泛用作评估者的GPT-4o,在“难”子集上的准确率也仅为55.97%。就评估范式而言,评分标准层级的评估优于检查清单(checklist)层级;显式推理(explicit reasoning)可提升判断准确率;而将二者结合则能进一步降低评估者间差异(inter-judge variance)。此外,依托我们构建的评分标准分类体系(rubric taxonomy),我们系统识别出若干常见失效模式,并为构建可靠、稳健的指令遵循评估方法提供了切实可行的改进建议。
-
- 图表
- 解决问题现有基于评分标准(rubric-based)的指令遵循评估方法缺乏对评估过程本身可靠性的元评估,尤其是缺乏在评分标准层级(而非响应层级)上对人工或模型裁判判断准确性的系统性验证。这是一个新问题,因为先前的元评估工作主要聚焦于响应层面的质量比较,而忽略了rubric-level judgment的细粒度准确性这一核心前提。
- 关键思路提出RubricEval——首个专为指令遵循任务设计的、以评分标准为单位的元评估基准;通过构建高质量、细粒度标注的裁判判断真值(ground-truth rubric judgments),直接评估裁判(人或模型)在给定rubric维度上判定响应是否达标的能力;引入Easy/Hard子集与rubric分类法,支持对判断难度和失败模式的归因分析。
- 其它亮点包含3,486个质量可控实例,覆盖多类指令(如事实性、格式、安全、推理)及多源模型响应(Llama、Qwen、GPT等);实验发现GPT-4o在Hard子集上仅达55.97%准确率,揭示当前主流裁判模型存在严重局限;证实显式推理+rubric-level范式可显著降低评委间方差;已开源数据与评估协议(https://github.com/RubricEval/RubricEval);未来方向包括:可解释裁判建模、rubric自适应难度校准、人类裁判认知偏差建模。
- 1. AlpacaEval 2.0 (Li et al., 2024); 2. Arena-Hard (Ding et al., 2024); 3. HELM Instruction Following (Liang et al., 2023); 4. JudgE (Zhang et al., 2024); 5. RubricAI (Chen et al., 2023, workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流