Adversarial Attacks on Reinforcement Learning Agents for Command and Control

2024年05月02日
  • 简介
    最近深度强化学习在训练代理赢得像星际争霸和DOTA(Defense Of The Ancients)这样的复杂游戏中产生了巨大影响,因此在专业战争游戏、战场模拟和建模方面,利用基于学习的技术进行研究的浪潮正在兴起。实时战略游戏和模拟器已成为操作规划和军事研究的宝贵资源。然而,最近的研究表明,这种基于学习的方法极易受到对手的干扰。在本文中,我们研究了在一个被活跃对手控制的环境中进行指挥和控制任务的代理的鲁棒性。C2代理在使用最先进的强化学习算法A3C和PPO的自定义星际争霸II地图上进行训练。我们实证表明,使用这些算法训练的代理极易受到对手注入的噪声的影响,并研究了这些扰动对训练代理性能的影响。我们的工作强调了需要开发更加鲁棒的训练算法,特别是在像战场这样的关键领域。
  • 图表
  • 解决问题
    本文旨在研究针对控制环境中的敌对干扰,训练出的指挥与控制(C2)代理的鲁棒性。作者使用A3C和PPO等最先进的强化学习算法在自定义的StarCraft II地图上进行训练,并证明了使用这些算法训练出的代理非常容易受到对手注入的噪声的影响。
  • 关键思路
    本文提出了一个针对控制环境中的敌对干扰的C2代理训练框架,并探讨了使用A3C和PPO等算法训练代理时的鲁棒性问题。
  • 其它亮点
    本文的实验设计以StarCraft II为基础,使用了最先进的强化学习算法进行训练,证明了代理非常容易受到对手注入的噪声的影响。作者呼吁需要开发更加鲁棒的训练算法,特别是在关键领域如战场上。
  • 相关研究
    最近在这个领域中,也有其他研究关注强化学习算法在战场上的应用。例如:《Deep Reinforcement Learning for Autonomous Air Combat Decision Making》和《Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论