- 简介尽管机器学习的安全检测模型(如恶意软件分类器)已经取得了良好的性能和广泛的应用,但是它们仍然面临着概念漂移和攻击者逃避进化的问题,这使得最新的威胁数据成为必需。然而,由于各种隐私保护法规(例如GDPR)的实施,安全供应商收集与个人有关且涉及隐私的威胁数据集变得越来越具有挑战性甚至是禁止的,例如来自移动设备的短信垃圾邮件/非垃圾邮件。为了解决这些障碍,本研究通过建立多个威胁数据集和威胁检测模型,以及设计现实和安全特定的实验,系统地评估了联邦学习在隐私保护的网络威胁检测中的可行性,包括效果、拜占庭容错和效率。我们在两个代表性的威胁检测任务(即短信垃圾邮件检测和Android恶意软件检测)上评估了联邦学习。结果表明,经过联邦学习训练的检测模型可以达到与中央训练模型相当的性能。此外,大多数非独立同分布的数据分布对模型性能的影响要么很小,要么可以忽略不计,而基于标签的非独立同分布分布会导致联邦学习训练中的波动和延迟。在一个现实的威胁模型下,联邦学习对数据污染和模型污染攻击都具有抵抗力。特别地,实际数据污染攻击的攻击影响不超过0.14%的模型准确度下降。关于联邦学习的效率,引导策略被证明是有效的,可以缓解在基于标签的非独立同分布场景中观察到的训练延迟。
- 图表
- 解决问题本论文旨在探究联邦学习在保护隐私的情况下用于网络安全威胁检测的可行性,并解决由于隐私保护法规的执行导致安全供应商难以收集个体相关和隐私敏感的威胁数据集的问题。
- 关键思路本文使用多个威胁数据集和威胁检测模型,系统地评估了联邦学习在保护隐私的情况下用于网络安全威胁检测的有效性、拜占庭容错性和效率,并提出了相应的解决方案。
- 其它亮点本文评估了联邦学习在短信垃圾检测和Android恶意软件检测这两个具有代表性的威胁检测任务中的应用,并发现FL训练的检测模型可以达到与中央训练模型相当的性能。实验结果显示,大多数非IID数据分布对模型性能的影响微乎其微。在现实威胁模型下,FL对数据污染和模型污染攻击都具有抵抗能力。此外,引入引导策略可以有效缓解标签非IID情况下的训练延迟。
- 最近的相关研究包括:《基于联邦学习的隐私保护垃圾邮件检测》、《基于联邦学习的恶意软件检测》等。
沙发等你来抢
去评论
评论
沙发等你来抢