The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models

2024年04月24日
  • 简介
    人类反馈在大型语言模型的对齐中扮演着核心角色。然而,如何(methods)、在哪些领域(domains)、由谁(people)以及达到什么目的(objectives)收集人类反馈仍然存在一些开放性问题。为了解决这些问题,我们引入了PRISM数据集。该数据集将来自75个国家的1,500名不同背景的参与者的社会人口统计数据和陈述偏好,与他们在与21个大型语言模型的8,011次实时对话中的上下文偏好和细致反馈相匹配。PRISM的贡献包括:(i)在人类反馈数据中具有广泛的地理和人口统计参与;(ii)两个代表人口普查的样本,用于了解集体福利(英国和美国);以及(iii)个性化反馈,其中每个评分都与详细的参与者资料相关联,从而允许探索个性化和样本工件的归属。我们重点收集围绕价值观和有争议的主题的主观和多元文化观点的对话,我们预计在这些对话中会出现最多的人际和跨文化分歧。我们通过对话多样性、偏好多样性和福利结果的三个案例研究展示了PRISM的有用性,表明设置对齐规范的人类是很重要的。除了提供丰富的社区资源外,我们倡导更广泛的参与AI发展和更具包容性的技术设计方法。
  • 作者讲解·1
  • 图表
  • 解决问题
    本文旨在探讨人类反馈在大型语言模型(LLMs)中对齐的方法、领域、人员和目标等问题,提出了PRISM数据集,以便更全面地了解人类反馈的影响。
  • 关键思路
    PRISM数据集收集了1500个来自75个国家的多样化参与者的个人信息、偏好和对21个LLMs的8011个实时对话的反馈,重点关注主观和多元文化视角的价值观和有争议的话题,探究人类反馈的个性化和归因。
  • 其它亮点
    PRISM数据集具有广泛的地理和人口统计参与,提供了两个人口普查代表性样本,可以深入研究对话多样性、偏好多样性和福利结果等问题。此外,本文还提供了丰富的实验设计、数据集和开源代码等社区资源,呼吁更广泛的AI开发参与和更包容的技术设计。
  • 相关研究
    与本文相关的研究包括但不限于:《The Alignment Problem in Language Models》、《Measuring Massive Multiculturalism: A Scale for Quantifying Cultural Diversity in Large Text Corpora》、《Ethics in Natural Language Processing》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问