【标题】SAC-AP: Soft Actor Critic based Deep Reinforcement Learning for Alert Prioritization

【作者团队】Lalitha Chavali, Tanay Gupta, Paresh Saxena

【发表日期】2022.7.27

【论文链接】https://arxiv.org/ftp/arxiv/papers/2207/2207.13666.pdf

【推荐理由】入侵检测系统(IDS)会产生大量的假警报, 因此,警报优先级在决定从 IDS 生成的大量警报中调查哪些警报方面起着至关重要的作用。 最近,基于深度强化学习 (DRL) 的深度确定性策略梯度 (DDPG) 离策略方法已显示出在警报优先级方面取得了更好的结果。 但是,DDPG 容易出现过拟合的问题。 此外,它的探索能力也很差,因此不适合随机环境的问题。 为了解决这些限制,本文提出了一种基于软actor-critic 的DRL 警报优先级算法(SAC-AP),这是一种off-policy 方法,基于最大熵强化学习框架,旨在最大化预期奖励同时也最大化熵 。 此外,将对手和防御者之间的交互建模为零和博弈,并利用双预言框架获得近似混合策略纳什均衡(MSNE)。 实验结果表明,与基于 DDPG 的警报优先级方法相比,SAC-AP 可将防御者的损失降低多达 30%。