- 简介生成式奖励模型(也被称为“LLM 作为评判者”)利用大语言模型(LLM)来评估答案质量,现已被广泛应用于可验证奖励强化学习(RLVR)中。相比僵化的基于规则的指标,尤其是在涉及自由形式输出的复杂推理任务中,这种模型更受青睐。在这一范式中,通常会提示 LLM 将候选答案与真实参考答案进行比较,并给出一个表示正确与否的二值奖励。尽管这项比较任务看似简单,但我们发现,生成式奖励模型对一些表面性的操控却表现出令人惊讶的脆弱性:非文字符号(例如 “:” 或 “.”)或诸如 “Thought process:” 和 “Let's solve this problem step by step.” 这样的推理引导语,往往会引发错误的正向奖励。我们证实,这种弱点在不同 LLM、不同数据集和提示格式中普遍存在,对于依赖生成式奖励模型的核心算法范式(如拒绝采样、偏好优化和 RLVR)构成了严重威胁。为缓解这一问题,我们提出了一种简单但有效的数据增强策略,并据此训练了一个具有显著更强鲁棒性的生成式奖励模型。我们的研究结果突显了对更加可靠的基于 LLM 的评估方法的迫切需求。我们已将鲁棒性强、适用范围广的奖励模型及其合成训练数据发布在 https://huggingface.co/sarosavo/Master-RM 和 https://huggingface.co/datasets/sarosavo/Master-RM。
- 图表
- 解决问题论文探讨了生成式奖励模型(Generative Reward Models,GRMs)在评估答案质量时存在的脆弱性问题,特别是当这些模型用于强化学习与可验证奖励(RLVR)等范式中时。这一问题虽然尚未广泛被认知,但对当前依赖于LLM-as-Judge方法的核心算法构成严重威胁,因此是一个亟需关注的新问题。
- 关键思路论文的关键思路是识别并量化GRMs在面对表面性文本扰动(如非单词符号和推理引导语句)时的脆弱性,并提出一种简单而有效的数据增强策略来提升模型鲁棒性。该研究首次系统地揭示了GRMs在多个任务和模型中的普遍性缺陷,并通过训练一个更具鲁棒性的通用领域奖励模型(Master-RM)来应对这一挑战。
- 其它亮点{实验覆盖多个LLM、数据集和提示格式,验证了GRMs的脆弱性具有普遍性。,提出了一种基于对抗性扰动的数据增强方法,有效提升了生成式奖励模型的鲁棒性。,开源了训练好的模型和合成数据集(Master-RM),便于社区复现与进一步研究。,强调了未来需要更可靠的LLM-based评估机制的重要性。}
- {"Zhang et al., \"Reward Learning from Human Feedback: A Review\", NeurIPS 2023.","Ouyang et al., \"Training language models to follow instructions with human feedback\", Nature, 2022.","Bai et al., \"Constitutional AI: Harmlessness from AI Feedback\", arXiv:2212.08073.","Stiennon et al., \"Learning to summarize with human feedback\", NeurIPS 2020.","Gao et al., \"Red Teaming Language Models with Yourself\", arXiv:2304.05302."}
沙发等你来抢
去评论
评论
沙发等你来抢