Social Choice for AI Alignment: Dealing with Diverse Human Feedback

简介

基础模型，例如 GPT-4，经过微调以避免不安全或其他有问题的行为，因此，例如，它们拒绝遵从犯罪或生成种族主义文本的请求。一种微调方法称为从人类反馈中进行的强化学习，它从人类对多个输出的表达偏好中学习。另一种方法是宪法人工智能，其中人类的输入是高级原则列表。但是，我们如何处理来自人类的潜在分歧的输入？我们如何将输入聚合成关于“集体”偏好的一致数据，或者以其他方式使用它来对模型行为做出集体选择？在本文中，我们认为社会选择领域有能力解决这些问题，并讨论这一议程的前进方式，借鉴了2023年12月在美国加利福尼亚州伯克利举行的关于AI伦理和安全的社会选择研讨会上的讨论。
图表
解决问题

如何处理人类输入的可能会出现分歧的信息，以便将其聚合成一致的数据或者用于制定模型行为的集体选择？
关键思路

社会选择理论可以帮助解决人类输入可能出现分歧的问题，从而制定模型行为的集体选择。
其它亮点

论文提出了社会选择理论可以应用于人工智能伦理和安全领域，讨论了社会选择理论在这个领域中的应用方法，探讨了如何将人类输入转化为一致的数据以进行模型行为选择。
相关研究

最近的相关研究包括：《Social Choice and Artificial Intelligence》、《Social Choice and Welfare》等。

Social Choice for AI Alignment: Dealing with Diverse Human Feedback

评论