Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

2024年06月13日
  • 简介
    最近通用人工智能的进展强调了将AI系统引导向个人和群体的预期目标、道德原则和价值观的重要性,这个概念被广泛认为是对齐。然而,人工智能与人类对齐的定义和范围缺乏明确,这是一个重要的障碍,阻碍了跨研究领域的协作努力来实现这种对齐。特别是,面向机器学习和哲学的对齐研究通常将AI对齐视为一个静态、单向的过程(即,旨在确保AI系统的目标与人类相匹配),而不是一个持续的、相互对齐的问题[429]。这种观点在很大程度上忽视了对齐的长期互动和动态变化。为了了解这些差距,我们介绍了一项系统性的综述,涵盖了2019年至2024年1月发表的400多篇论文,涉及人机交互(HCI)、自然语言处理(NLP)、机器学习(ML)等多个领域。我们对人工智能与人类对齐进行了特征化、定义和范围划分。从这个角度出发,我们提出了一个“双向人工智能对齐”的概念框架,以人为中心的视角来组织文献。该框架包括1)传统的将AI与人类对齐的研究,旨在确保AI产生人类预期的结果,以及2)将人类与AI对齐的概念,旨在帮助个人和社会在认知和行为上适应AI的进步。此外,我们阐述了从文献分析中得出的关键发现,包括有关人类价值观、交互技术和评估的讨论。为了铺平未来研究的道路,我们预见了未来方向的三个关键挑战,并提出了潜在的未来解决方案示例。
  • 图表
  • 解决问题
    人工智能的双向人机对齐问题
  • 关键思路
    提出了一个概念性框架,将人工智能的对齐问题分为双向的人机对齐问题,不仅要将人工智能对齐到人的意图和价值观,还要将人对齐到人工智能的应用和发展。
  • 其它亮点
    对人工智能的双向对齐问题进行了系统性的梳理和总结,提出了一个新的概念性框架;分析了当前研究的主要亮点和挑战,提出了未来的研究方向和解决方案。
  • 相关研究
    最近的相关研究包括:《人工智能的价值对齐问题》、《人机交互中的人工智能对齐问题》、《自然语言处理中的人工智能对齐问题》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论