Combining AI Control Systems and Human Decision Support via Robustness and Criticality

Proc. SPIE 13058, Disruptive Technologies in Information Sciences VIII, 130580J (6 June 2024)
2024年07月03日
  • 简介
    AI的能力已经达到了可以在现实世界中部署的成熟水平,但并不总是做出正确或安全的决策。解决这些问题的一种方法是利用AI控制系统与人类决策相结合,依靠AI控制系统在安全情况下做出决策,而在关键情况下寻求人类共同决策。我们将对抗性解释(AE)的方法扩展到最先进的强化学习框架,包括MuZero。我们提出了多项基于基础代理架构的改进措施。我们展示了这项技术有两个应用:智能决策工具和增强培训/学习框架。在决策支持环境中,对抗性解释通过突出显示需要更改的上下文因素来帮助用户做出正确的决策。作为对抗性解释的另一个好处,我们展示了学习的AI控制系统表现出对抗性篡改的稳健性。此外,我们通过引入战略上相似的自动编码器(SSAs)来补充AE,以帮助用户识别和理解AI系统考虑的所有重要因素。在培训/学习框架中,这项技术可以通过人类互动来改善AI的决策和解释。最后,为了确定何时AI决策最需要人类监督,我们将这个组合系统与我们之前的关于任何时候决策重要性的统计验证分析联系起来。
  • 作者讲解
  • 图表
  • 解决问题
    如何解决人工智能决策不准确或不安全的问题?
  • 关键思路
    利用对抗解释方法(AE)来加强强化学习框架,提高人工智能的决策准确性和安全性,同时结合人类决策者的决策。
  • 其它亮点
    论文提出了多种改进强化学习框架的方法,并演示了这种技术在智能决策工具和增强训练/学习框架方面的应用。对抗解释方法可以帮助用户做出正确的决策,并提高人工智能控制系统对对抗性篡改的鲁棒性。此外,论文还引入了策略相似自编码器(SSA)来帮助用户识别和理解人工智能系统考虑的所有关键因素。
  • 相关研究
    最近的相关研究包括:《Adversarial Explanations for Deep Convolutional Networks》、《Interpretable Machine Learning: A Brief History, State-of-the-Art and Challenges》、《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问