Beyond Preferences in AI Alignment

Tan Zhi-Xuan ,
Micah Carroll ,
Matija Franklin ,
Hal Ashton
2024年08月30日
  • 简介
    AI对齐的主导实践认为(1)偏好是人类价值的足够表征,(2)人类理性可以通过最大化偏好满意度来理解,(3)AI系统应该与一个或多个人的偏好保持一致,以确保它们的行为安全且符合我们的价值观。无论是隐含地遵循还是明确地支持,这些承诺构成了我们所谓的偏好主义AI对齐方法。在本文中,我们描述并挑战了偏好主义方法,阐述了概念和技术上的替代方案,这些方案值得进一步研究。我们首先调查了理性选择理论作为描述性模型的局限性,解释了偏好未能捕捉到人类价值的丰富语义内容,以及效用表征忽略了这些价值的可能不可比性。然后,我们批评了期望效用理论(EUT)在人类和AI的规范性,引用了一些论据,表明理性代理不需要遵守EUT,同时强调EUT对哪些偏好在规范上是可接受的保持沉默。最后,我们认为这些局限性促使我们重新界定AI对齐的目标:AI系统应该与适合其社会角色的规范标准保持一致,例如通用助手的角色。此外,这些标准应该由所有相关利益相关者进行协商和达成共识。在这种对齐的替代概念下,多种AI系统将能够服务于不同的目的,与促进互惠和限制伤害的规范标准保持一致,尽管我们的价值观是多元和分歧的。
  • 图表
  • 解决问题
    挑战AI对人类价值观的理解和应用,提出AI系统应该按照社会角色的规范标准进行对齐,而不是仅仅对齐人类用户的偏好。
  • 关键思路
    挑战偏好主义方法,提出AI系统应该按照社会角色的规范标准进行对齐,而不是仅仅对齐人类用户的偏好。
  • 其它亮点
    论文批评了偏好主义方法的局限性,提出AI系统应该按照社会角色的规范标准进行对齐,而不是仅仅对齐人类用户的偏好。
  • 相关研究
    最近的相关研究包括:《人工智能和道德》、《人工智能和价值》、《机器道德与人类价值观》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论