- 简介生成式人工智能(AI)正在以前所未有的规模与人们互动,为巨大的积极影响开辟了新途径,但也引发了广泛的担忧,涉及个人和社会可能受到的伤害。目前,人工智能安全的主要范式是通过微调生成模型的输出,使其更符合人类提供的示例或反馈。然而,实际上,人工智能模型的输出后果无法在孤立的环境中确定:它们与随时间变化的人类用户的反应和行为紧密交织。在本文中,我们认为,只有通过思考AI的输出和人类行为形成的反馈回路如何推动交互向不同结果的方向发展,才能实现对这些AI技术的有意义的安全保障。为此,我们设想在未来几十年内,将生成式AI的快速增长能力与控制理论中的动态安全框架联系起来,为以人为中心的AI安全奠定新的基础。
-
- 图表
- 解决问题论文试图探讨如何保证人工智能的安全性,特别是在涉及到生成模型和人类交互的情况下。
- 关键思路论文认为,要实现有意义的人工智能安全保障,需要考虑生成模型的输出和人类行为之间的反馈循环如何推动交互走向不同的结果,并提出了基于控制理论的动态安全框架。
- 其它亮点论文提出的动态安全框架为人类中心的人工智能安全提供了新的思路和基础。实验设计上没有具体提及,但强调了需要考虑生成模型和人类交互的反馈循环,这一点对于未来的研究和实践具有重要意义。
- 近期的相关研究包括基于样本的人工智能安全保障、对抗样本和防御、模型可解释性等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流