Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

简介

当语言模型（LMs）通过强化学习（RL）训练以生成自然语言的“推理链”时，它们在各种困难的问答任务中表现出更好的性能。目前，几乎所有在推理任务中成功的强化学习应用都使用二值奖励函数来评估语言模型输出的正确性。由于这类奖励函数不会惩罚猜测或低置信度的输出，因此常常带来意料之外的副作用：降低置信度校准能力，并增加语言模型在其他问题领域中生成错误回答（或称“幻觉”）的频率。本文提出了一种名为RLCR（带校准奖励的强化学习）的方法，用于训练推理模型，能够在提升准确性的同时改善置信度的校准效果。在RLCR训练过程中，语言模型在推理之后同时生成预测结果和数值化的置信度估计。模型通过优化一个奖励函数进行训练，该函数在二值正确性评分的基础上加入了Brier评分——一种用于置信度估计的评分规则，旨在激励具有良好校准性的预测。我们首先证明，这种奖励函数（或任何使用有界适当评分规则的类似奖励函数）能够训练出既准确又具有良好校准性的模型。接着我们展示了在多种数据集上的实验结果：RLCR在领域内和领域外的评估中都能显著提升校准能力，同时保持准确性，表现优于普通的强化学习训练方法以及用于事后分配置信度的分类器。普通强化学习会损害校准效果，而RLCR则能改善这一点。最后，我们证明，在测试阶段可以利用语言化的置信度信息，通过基于置信度加权缩放的方法进一步提升准确性和校准效果。我们的研究结果表明，显式地优化校准性能有助于构建更加通用且可靠的推理模型。
图表
解决问题

论文试图解决当前通过强化学习（RL）训练语言模型生成推理链时存在的问题：虽然这些模型在提高任务准确性方面表现良好，但它们的置信度校准能力下降，导致在其他领域中错误回答（幻觉）增加。论文希望验证是否可以通过引入校准奖励来同时提升准确性和校准能力。
关键思路

论文提出RLCR（Reinforcement Learning with Calibration Rewards）方法，结合了二元正确性奖励和Brier评分（一种校准良好的置信度评分规则），以同时优化模型的准确性和置信度校准。这种方法不同于传统仅使用正确/错误奖励的RL方法，而是引入了对置信度的显式建模和优化，具有理论保障其有效性。
其它亮点

1. 在多个数据集上验证了RLCR在保持高准确性的同时显著提升模型的校准能力。 2. 与传统RL训练相比，RLCR不仅不会降低准确性，还能改善模型的置信度估计。 3. 实验显示，通过在推理阶段使用语言化的置信度估计，可以进一步提升模型表现。 4. 论文提供了理论证明，说明该方法能够获得既准确又校准良好的模型。 5. 实验设计包括对域内和域外数据的评估，显示出RLCR的良好泛化能力。
相关研究

1. Reinforcement Learning from Human Feedback (RLHF) 2. Calibrated Prediction and Scoring Rules in Machine Learning 3. Language Models as Reasoning Engines 4. Confidence Estimation in Neural Networks 5. Post-hoc Calibration Methods for Deep Learning Models 6. Recent Advances in Trustworthy and Reliable AI Systems

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论