More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness

2024年04月29日
  • 简介
    大规模语言模型(LLMs)的快速发展不仅提高了其在认知任务上的性能,也迫切需要将这些模型与人类价值观保持一致,以安全地利用它们的力量。尽管像人类反馈强化学习(RLHF)这样的偏好学习算法在调整人类偏好方面非常有效,但它们对模型可信度的改进并没有得到充分的验证。为此,本研究调查了已经通过有用性和无害性的通用偏好数据进行调整的模型在五个可信度方面的表现:有害性、刻板印象、机器伦理、真实性和隐私。为了进行模型调整,我们专注于三种广泛使用的RLHF变体:监督微调(SFT)、近端策略优化(PPO)和直接偏好优化(DPO)。通过广泛的实证研究,我们发现RLHF对可信度的改进远非保证,存在偏好数据、调整算法和具体可信度方面之间的复杂相互作用。因此,我们的结果强调了需要更为细致的模型调整方法。通过揭示模型调整中这些组成部分之间的复杂动态,我们希望本研究能够引导社区开发既能够胜任任务又值得信赖的语言模型。
  • 图表
  • 解决问题
    本论文旨在探讨如何通过偏好学习算法来提高语言模型的可信度,特别是在五个可信度方面:毒性、刻板印象、机器伦理、真实性和隐私方面。
  • 关键思路
    论文通过实证研究发现,偏好学习算法并不能保证提高模型的可信度,而且偏好数据、算法和特定的可信度方面之间存在复杂的相互作用。因此,需要更加细致的方法来对模型进行调整。
  • 其它亮点
    论文使用了三种广泛使用的偏好学习算法来对模型进行调整,即监督微调、近端策略优化和直接偏好优化。实验结果表明,偏好学习算法对提高模型可信度的效果并不是完全可靠的。此外,论文还提出了一些有待深入研究的问题,如如何更好地对偏好数据进行选择和收集。
  • 相关研究
    在这个领域中,最近的一些相关研究包括《Aligning AI incentives with human values》、《Learning from Human Preferences》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论