- 简介最近的生成式人工智能系统展示了更先进的说服能力,并越来越渗透到可以影响决策的生活领域。生成式人工智能提供了一种新的说服风险配置,因为它具有互惠交流和长期交互的机会。这引起了人们对人工智能说服的危害以及如何减轻这些危害的日益关注,强调了对人工智能说服进行系统研究的必要性。目前对人工智能说服的定义不清晰,相关危害研究不足。现有的危害缓解方法优先考虑来自说服结果的危害,而不是来自说服过程的危害。在本文中,我们为对人工智能说服进行系统研究奠定了基础。我们首先提出了有关生成式人工智能的说服定义。我们区分了理性说服的生成式人工智能和操纵性的生成式人工智能,前者依赖于提供相关事实、合理的推理或其他形式的可信证据,而后者则依赖于利用认知偏差和启发式或歪曲信息。我们还提出了人工智能说服的危害图谱,包括经济、身体、环境、心理、社会文化、政治、隐私和自主权等危害的定义和示例。然后,我们介绍了有助于有害说服的机制图谱。最后,我们提供了一种缓解说服过程危害的方法概述,包括操纵分类的提示工程和红队行动。未来的工作将使这些缓解措施操作化,并研究不同类型的说服机制之间的相互作用。
- 图表
- 解决问题系统性研究人工智能说服的方法和风险
- 关键思路提出了理性和操纵性两种人工智能说服的定义,并建立了人工智能说服的伤害和机制图谱
- 其它亮点论文提出了人工智能说服的伤害图谱和机制图谱,介绍了可用于减轻人工智能说服过程伤害的方法,未来将深入研究各种机制的相互作用
- 近期的相关研究主要集中在人工智能说服的伦理和法律方面,如《人工智能说服的伦理和法律问题:一个概述》
沙发等你来抢
去评论
评论
沙发等你来抢