- 简介主流的对齐大型语言模型(LLMs)的方法在很大程度上依赖于人类偏好数据,特别是当模型需要定期更新时。迭代对齐LLMs的标准流程涉及为每次更新收集新的人类反馈。然而,数据收集过程成本高,难以扩展。为解决这个问题,我们引入了“TS-Align”框架,该框架使用从其输出中自动挖掘的成对反馈数据来微调策略模型。这个自动挖掘过程通过大规模教师模型和小规模学生模型之间的协作有效地完成。在我们提出的师生协作框架内,可以使用策略微调过程中的策略生成进行迭代重复。通过广泛的实验,我们证明了我们的最终对齐策略在七个对话或遵循指示数据集中的平均胜率为69.7%的基础策略模型之上表现更好。此外,我们展示了教师的排名能力通过我们的流程有效地蒸馏到学生中,从而产生了一个小而有效的奖励模型,用于策略模型的对齐。
- 图表
- 解决问题解决大型语言模型对齐的成本和规模问题。
- 关键思路通过自动挖掘生成的两两反馈数据,使用大规模的教师模型和小规模的学生模型协作,fine-tune策略模型,实现对齐。
- 其它亮点使用TS-Align框架,实现了自动化挖掘两两反馈数据,大幅降低了数据收集成本;通过教师-学生协作框架,实现了策略模型的自动对齐,且效果优于基准模型;实验展示了该方法在7个数据集上的优异表现。
- 相关研究包括:基于人类反馈数据的LLM对齐方法,基于对抗训练的LLM对齐方法等。
沙发等你来抢
去评论
评论
沙发等你来抢