ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback

2024年04月01日
  • 简介
    ChatGLM是一款由ChatGLM系列大型语言模型(LLMs)驱动的免费AI服务。本文介绍了ChatGLM-RLHF管道,即一种从人类反馈中进行强化学习(RLHF)的系统,旨在提高ChatGLM与人类偏好的一致性。ChatGLM-RLHF包括三个主要组成部分:收集人类偏好数据、训练奖励模型和优化策略。在将ChatGLM-RLHF集成到生产中的过程中,我们遇到并解决了几个前所未有的挑战。我们介绍了缓解奖励方差以进行稳定的大规模训练的策略,使用融合梯度下降的模型并行性,以及设计正则化约束以避免LLMs中的灾难性遗忘。实验表明,与ChatGLM-SFT版本相比,ChatGLM-RLHF在对齐任务中带来了显着的改进。例如,在中文对齐任务中,它平均获得了比ChatGLM-SFT多15%的胜利。该工作介绍了我们将LLMs与人类偏好对齐的做法,提供了RLHF实现中的挑战和解决方案的见解。
  • 图表
  • 解决问题
    本论文旨在通过强化学习从人类反馈中提高ChatGLM的对人类偏好的匹配度。
  • 关键思路
    ChatGLM-RLHF包括三个主要组件:收集人类偏好数据、训练奖励模型和优化策略。论文提出了应对奖励方差的稳定大规模训练、使用融合梯度下降的模型并行以及设计正则化约束以避免LLMs的灾难性遗忘的策略。实验表明,相比于ChatGLM-SFT,ChatGLM-RLHF在对齐任务中取得了显著的改进。
  • 其它亮点
    论文介绍了将LLMs与人类偏好对齐的实践经验,并提供了RLHF实现中的挑战和解决方案的见解。实验使用了中文数据集,并展示了ChatGLM-RLHF在对齐任务中的显著改进。论文开源了代码。
  • 相关研究
    最近的相关研究包括:1. Learning to Learn from Human Preferences; 2. Deep Reinforcement Learning from Human Preferences; 3. Learning from Human Preferences with Bayesian Neural Networks.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论