Human-AI Safety: A Descendant of Generative AI and Control Systems Safety

简介

生成式人工智能（AI）正在以前所未有的规模与人们互动，为巨大的积极影响开辟了新途径，但也引发了广泛的担忧，涉及个人和社会可能受到的伤害。目前，人工智能安全的主要范式是通过微调生成模型的输出，使其更符合人类提供的示例或反馈。然而，实际上，人工智能模型的输出后果无法在孤立的环境中确定：它们与随时间变化的人类用户的反应和行为紧密交织。在本文中，我们认为，只有通过思考AI的输出和人类行为形成的反馈回路如何推动交互向不同结果的方向发展，才能实现对这些AI技术的有意义的安全保障。为此，我们设想在未来几十年内，将生成式AI的快速增长能力与控制理论中的动态安全框架联系起来，为以人为中心的AI安全奠定新的基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图探讨如何保证人工智能的安全性，特别是在涉及到生成模型和人类交互的情况下。
关键思路

论文认为，要实现有意义的人工智能安全保障，需要考虑生成模型的输出和人类行为之间的反馈循环如何推动交互走向不同的结果，并提出了基于控制理论的动态安全框架。
其它亮点

论文提出的动态安全框架为人类中心的人工智能安全提供了新的思路和基础。实验设计上没有具体提及，但强调了需要考虑生成模型和人类交互的反馈循环，这一点对于未来的研究和实践具有重要意义。
相关研究

近期的相关研究包括基于样本的人工智能安全保障、对抗样本和防御、模型可解释性等。

Human-AI Safety: A Descendant of Generative AI and Control Systems Safety

提问交流

提问交流