Social Choice for AI Alignment: Dealing with Diverse Human Feedback

Vincent Conitzer,
Rachel Freedman,
Jobst Heitzig,
Wesley H. Holliday,
Bob M. Jacobs,
Nathan Lambert,
Milan Mossé,
Eric Pacuit,
Stuart Russell,
Hailey Schoelkopf,
Emanuel Tewolde,
William S. Zwicker
310
热度
ML
AI
NLP
Symbolic
GameTh
68T01, 68T50, 91B14, 91B12
I.2.0; I.2.7; K.4.2; I.2.m; J.4
2024年04月16日
  • 简介
    基础模型,例如 GPT-4,经过微调以避免不安全或其他有问题的行为,因此,例如,它们拒绝遵从犯罪或生成种族主义文本的请求。一种微调方法称为从人类反馈中进行的强化学习,它从人类对多个输出的表达偏好中学习。另一种方法是宪法人工智能,其中人类的输入是高级原则列表。但是,我们如何处理来自人类的潜在分歧的输入?我们如何将输入聚合成关于“集体”偏好的一致数据,或者以其他方式使用它来对模型行为做出集体选择?在本文中,我们认为社会选择领域有能力解决这些问题,并讨论这一议程的前进方式,借鉴了2023年12月在美国加利福尼亚州伯克利举行的关于AI伦理和安全的社会选择研讨会上的讨论。
  • 图表
  • 解决问题
    如何处理人类输入的可能会出现分歧的信息,以便将其聚合成一致的数据或者用于制定模型行为的集体选择?
  • 关键思路
    社会选择理论可以帮助解决人类输入可能出现分歧的问题,从而制定模型行为的集体选择。
  • 其它亮点
    论文提出了社会选择理论可以应用于人工智能伦理和安全领域,讨论了社会选择理论在这个领域中的应用方法,探讨了如何将人类输入转化为一致的数据以进行模型行为选择。
  • 相关研究
    最近的相关研究包括:《Social Choice and Artificial Intelligence》、《Social Choice and Welfare》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论