Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

2025年10月27日
  • 简介
    大型语言模型(LLM)被广泛用作评判者来评估回复质量,为人工评估提供了一种可扩展的替代方案。然而,大多数LLM评判者仅依赖于基于文本的内在推理,这限制了它们验证复杂约束或进行精确计算的能力。受工具集成推理(TIR)在众多任务中取得成功的启发,我们提出了TIR-Judge——一种端到端的强化学习框架,用于训练集成了代码执行器以实现精确评估的LLM评判模型。TIR-Judge建立在三个原则之上:(i)在可验证与不可验证领域进行多样化训练,(ii)支持灵活的评判格式(逐点式、成对式、列表式),以及(iii)通过迭代强化学习直接从初始模型启动训练,无需蒸馏过程。在七个公开基准测试中,Tir-Judge的性能优于强大的基于推理的评判模型,最高提升达6.4%(逐点式)和7.7%(成对式),并且尽管仅有80亿参数,其列表式评判表现仍可媲美Claude-Opus-4。尤为值得注意的是,TIR-Judge-Zero完全不使用蒸馏得到的评判轨迹进行训练,却能达到与蒸馏版本相当的性能,这表明借助工具增强的评判模型能够通过迭代强化学习实现自我演化。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前大型语言模型(LLM)作为评估裁判(judge)时仅依赖文本内在推理,缺乏验证复杂约束或执行精确计算的能力的问题。尤其是在需要数学计算、逻辑验证或多步骤事实核查的任务中,传统LLM裁判容易产生幻觉或判断偏差。这虽非全新问题,但如何系统性地提升LLM裁判的准确性和可靠性,尤其是在无需人类标注的情况下实现自我演进,仍是一个开放挑战。
  • 关键思路
    提出TIR-Judge,一种端到端的强化学习(RL)框架,通过集成代码执行器(code executor)实现工具增强的判断能力(Tool-Integrated Reasoning, TIR),使LLM在评估响应质量时能调用外部工具进行精确计算和验证。其关键创新在于:不依赖蒸馏自专家裁判的行为数据,而是通过迭代式强化学习让模型从自身生成的反馈中自我进化——即TIR-Judge-Zero无需任何蒸馏轨迹即可达到甚至超越蒸馏模型性能,展示了工具增强型LLM裁判的自举潜力。
  • 其它亮点
    在七个公开基准上全面超越现有强推理型裁判模型,点对点评估提升达6.4%,成对比较提升7.7%;8B参数的小模型实现与Claude-Opus-4相当的listwise排序性能。实验设计涵盖可验证与不可验证任务领域,支持pointwise、pairwise、listwise多种判断格式。训练过程完全基于迭代RL,无需监督微调或行为克隆。目前尚未提及开源代码,但其‘无蒸馏’训练范式为低成本构建高性能裁判模型提供了新路径,未来可探索更多工具集成(如搜索引擎、知识库)及跨模态评估场景。
  • 相关研究
    1. 'Large Language Models as Optimizers' (ICLR 2024) 2. 'Self-Taught Judge: Learning to Evaluate through Self-Play' (NeurIPS 2023) 3. 'ChatJudge: A Strong LLM-based Judge with Parametric Knowledge and Careful Design' (2024) 4. 'Toolformer: Language Models Can Teach Themselves to Use Tools' (NeurIPS 2023) 5. 'ReAct: Synergizing Reasoning and Acting in Language Models' (ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问