Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

简介

近年来，通用人工智能的发展凸显了引导人工智能系统朝着个人和群体的预期目标、道德原则和价值观的重要性，这个广泛认可的概念被称为对齐。然而，人工智能与人类对齐的定义和范围缺乏明确，这是一个重要的障碍，阻碍了跨研究领域的合作努力以实现这种对齐。特别是，以机器学习和哲学为导向的对齐研究通常将人工智能对齐视为一个静态的、单向的过程（即，旨在确保人工智能系统的目标与人类相匹配），而不是一个持续的、相互对齐的问题。这种观点在很大程度上忽略了对齐的长期互动和动态变化。为了了解这些差距，我们介绍了一项系统性的综述，涵盖了2019年至2024年1月间发表的400多篇论文，涉及多个领域，如人机交互、自然语言处理、机器学习等。我们对人工智能与人类对齐进行了特征化、定义和范围划分。在此基础上，我们提出了一个“双向人工智能与人类对齐”的概念框架，以人为中心的视角组织文献。这个框架包括两个方面：1）传统的将人工智能与人类对齐的研究，旨在确保人工智能产生人类所期望的结果；2）提出将人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能的进步。此外，我们阐述了文献分析得出的关键发现，包括人类价值观、交互技术和评估等方面的讨论。为了铺平未来研究的道路，我们设想了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。
图表
解决问题

人工智能领域缺乏对人工智能与人类之间对齐的定义和范围，阻碍了跨学科合作的进展，本文试图通过系统综述来定义和范围化人工智能与人类之间的对齐问题。
关键思路

本文提出了一个“双向人工智能对齐”的概念框架，旨在从人类中心的角度组织文献，包括将人工智能对齐到人类的传统研究和将人类对齐到人工智能的新概念。
其它亮点

本文的实验设计是通过对400多篇论文的系统综述来得出结论，针对人类价值观、交互技术和评估等方面进行了讨论。未来的研究方向包括人工智能对齐的动态变化、人工智能对齐的多样性和人工智能对齐的可解释性。
相关研究

在人工智能领域，有很多相关的研究在进行，例如“人工智能伦理学”、“人机交互”、“自然语言处理”和“机器学习”等。

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

评论