- 简介随着人工智能系统的不断增强和普及,AI系统设计为服务于所有人,即具有不同价值观和观点的人变得更加关键。然而,将模型与多元人类价值观相一致仍然是一个开放的研究问题。在本文中,我们提出了一个多元对齐的路线图,具体使用语言模型作为测试平台。我们确定并形式化了在AI系统中定义和实现多元主义的三种可能方法:1)Overton多元模型,呈现出一系列合理的响应;2)可控制的多元模型,可以控制以反映某些观点;和3)分布式多元模型,可以在分布中很好地校准给定的人群。我们还提出并形式化了三种可能的多元主义基准类别:1)多目标基准,2)权衡可控基准,激励模型进行任意权衡,和3)陪审团多元主义基准,明确建模多样的人类评分。我们使用这个框架来证明当前的对齐技术可能在多元主义AI方面存在根本的局限性;的确,我们强调实证证据,包括我们自己的实验和其他工作,标准对齐程序可能会降低模型的分布多元主义,这促使我们进一步研究多元主义对齐的必要性。
- 图表
- 解决问题提出了一个AI系统多元对齐的路线图,以解决如何设计符合多元人类价值观的AI系统的问题。
- 关键思路论文提出了三种定义和操作多元主义的方式,并提出了三种多元主义基准,以促进多元主义AI的发展。
- 其它亮点论文提出了三种多元主义的定义和操作方式:Overton多元主义模型、可操纵的多元主义模型和分布式多元主义模型;并提出了三种多元主义基准:多目标基准、权衡可操纵基准和陪审团多元主义基准。论文还强调了当前对齐技术在实现多元主义AI方面的局限性,并提出了未来需要进一步研究多元主义对齐的必要性。
- 相关研究包括:《AI中的多元主义:从哲学到工程》、《AI系统的多元主义:理论和实践》、《对齐AI与多元主义:一个新的研究议程》等。
沙发等你来抢
去评论
评论
沙发等你来抢