Inverse Constitutional AI: Compressing Preferences into Principles

2024年06月02日
  • 简介
    反馈数据在微调和评估最先进的人工智能模型中起着重要作用。通常使用成对的文本偏好:给定两个文本,人类(或人工智能)注释者选择“更好”的文本。这种反馈数据被广泛用于将模型与人类偏好对齐(例如,从人类反馈中进行强化学习),或根据人类偏好对模型进行排名(例如,Chatbot Arena)。尽管它被广泛使用,但先前的研究表明,人类注释的成对文本偏好数据通常会出现意想不到的偏差。例如,在某些情况下,已经显示人类注释者更喜欢果断而不是真实的文本。在这种数据上训练或评估的模型可能会以难以识别的方式隐式地编码这些偏差。在本文中,我们将现有的成对文本偏好数据的解释形式化为一项压缩任务:反宪法人工智能(ICAI)问题。在宪法人工智能中,一组原则(或宪法)用于提供反馈并微调人工智能模型。ICAI问题颠倒了这个过程:给定一个反馈数据集,我们的目标是提取一个最好地使大型语言模型(LLM)重构原始注释的宪法。我们提出了相应的初始ICAI算法,并基于重构的注释定量验证了其生成的宪法。生成的宪法具有许多潜在的用途——它们可以帮助识别不良偏差,将反馈扩展到未见过的数据,或协助适应LLM到个人用户的偏好。我们在各种数据集上演示了我们的方法:(a)具有已知基础原则的合成反馈数据集;(b)交叉注释的人类反馈的AlpacaEval数据集;以及(c)众包Chatbot Arena数据集。我们在https://github.com/rdnfn/icai上发布了我们的算法和实验代码。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决人工智能模型训练和评估中可能存在的偏见问题,提出了一种将现有的成对文本偏好数据解释为压缩任务的方法,即逆宪法人工智能(ICAI)问题。
  • 关键思路
    本文提出了一种ICAI算法,旨在从现有的成对文本偏好数据中提取一组原则(或宪法),以最好地使大型语言模型(LLM)重构原始注释。这种方法可以帮助识别不良偏见、扩展反馈到未见过的数据或协助适应LLMs到个人用户偏好。
  • 其它亮点
    本文在合成反馈数据集、AlpacaEval数据集和Chatbot Arena数据集上验证了该方法的有效性,提出的算法和实验代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,先前的研究表明,人类注释者在某些情况下更喜欢有决断力的文本而不是真实的文本。此外,一些研究还探讨了如何使用反馈数据来训练AI模型,以及如何评估模型的性能。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问