What are human values, and how do we align AI to them?

2024年03月27日
  • 简介
    目前越来越多人认为我们需要将人工智能系统与人类价值观相一致(Gabriel, 2020; Ji等,2024),但如何将其应用到语言模型中仍不清楚。我们将“与人类价值观相一致”问题分成三个部分:首先,从人们那里引出价值观;其次,将这些价值观协调成用于训练机器学习模型的一致性目标;第三,实际训练模型。在本文中,我们专注于前两部分,并提出一个问题:将多种人类输入的价值观综合成一致性目标的“好”方法是什么?为了回答这个问题,我们首先定义了一组6个标准,我们认为这些标准必须满足,才能使一致性目标塑造模型行为与人类价值观一致。然后,我们提出了一种称为“道德图引出”(MGE)的引出和协调价值的过程,该过程使用大型语言模型在特定语境下对参与者进行采访。我们的方法受到Taylor(1977)、Chang(2004)等人提出的价值哲学的启发。我们在代表性的500名美国人身上试用了MGE,针对3个有意引起分歧的提示(例如有关堕胎的建议)。我们的结果表明,MGE有望在所有6个标准上改善模型一致性。例如,几乎所有参与者(89.1%)都认为该过程代表了他们,89%的人认为最终的道德图是公平的,即使他们的价值观没有被选为最明智的。我们的过程经常导致“专家”价值观(例如征求堕胎建议的女性的价值观)在道德图中占据主导地位,而不需要事先定义谁被认为是专家。
  • 图表
  • 解决问题
    如何将语言模型与人类价值观相一致?
  • 关键思路
    通过Moral Graph Elicitation(MGE)的过程,从不同的人的价值观中提取并整合出一个对于训练模型的人类价值观目标
  • 其它亮点
    使用大型语言模型对500名美国人进行MGE实验,结果显示MGE能够在6个标准中提高模型的一致性,包括参与者的代表性和道德图的公正性等
  • 相关研究
    最近的相关研究包括Gabriel(2020)和Ji等人(2024)的人工智能与人类价值观的一致性问题,以及Taylor(1977)和Chang(2004)等人的价值观哲学。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论