Aligning Large Language Models from Self-Reference AI Feedback with one General Principle

2024年06月17日
  • 简介
    在对齐大型语言模型(LLMs)时,利用现有先进人工智能的反馈而非人类是扩大监督信号的重要方法。然而,对于人工智能来理解人类意图和社会价值,并根据这些提供准确的偏好反馈是非常具有挑战性的。当前的人工智能反馈方法依赖于强大的LLMs、精心设计的特定原则来描述人类意图,并且容易受到位置偏差的影响。为了解决这些问题,我们提出了一种基于自我参照的人工智能反馈框架,使13B Llama2-Chat能够在简单和通用的原则下提供高质量的反馈,例如“最符合人类利益”。具体而言,我们允许人工智能首先回应用户的指令,然后根据自己的响应作为参考生成其他答案的批评,并最终根据这些批评确定哪个答案更符合人类的偏好。此外,我们使用自一致性方法进一步减少位置偏差的影响,并采用语义困惑度来计算不同答案之间的偏好强度差异。实验结果表明,我们的方法使13B和70B Llama2-Chat注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型通过强化学习在基准数据集中取得了显著的优势。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决使用AI辅助对LLMs进行对齐时,AI理解人类意图和社会价值观的挑战。作者提出了一个基于自我参照的AI反馈框架,以更好地满足人类意图和社会价值观。
  • 关键思路
    本文提出了一个基于自我参照的AI反馈框架,使13B Llama2-Chat能够根据简单通用的原则(如“最适合人类”)提供高质量的反馈,以更好地满足人类意图和社会价值观。
  • 其它亮点
    本文使用了自我参照的AI反馈框架,使用了自一致性方法来减少位置偏差的影响,并使用语义困惑度来计算不同答案之间的偏好强度差异。实验结果表明,该方法使得13B和70B Llama2-Chat能够提供高质量的偏好反馈,基于这些偏好数据训练的策略模型在强化学习的基准数据集中取得了显著优势。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Scaling Laws for Neural Language Models》、《A General Framework for Supervised Learning with Synthetic Gradients》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问