- 简介现代机器学习流程利用了大量的公共数据,无法保证数据质量,使得模型容易受到污染和后门攻击。然而,证明在此类攻击下模型行为的上限仍然是一个未解决的问题。在本文中,我们解决了这个挑战,并开发了第一个框架,可以提供对使用可能被操纵的数据训练的模型行为的证明保证。特别地,我们的框架证明了对于输入和标签的未定向和有定向污染以及后门攻击的鲁棒性。我们的方法利用凸松弛来过度估计给定污染威胁模型下所有可能的参数更新集合,从而使我们能够限制任何基于梯度的学习算法的所有可达参数集合。在给定这些参数集合的情况下,我们提供最坏情况下的行为上限,包括模型性能和后门成功率。我们在多个现实世界的数据集上展示了我们的方法,这些应用包括能源消耗、医学影像和自动驾驶等。
- 图表
- 解决问题开发了第一个框架,为可能被操纵的数据训练的模型提供了可证明的保证。
- 关键思路使用凸松弛来近似给定污染威胁模型的所有可能参数更新的集合,从而限制任何基于梯度的学习算法的所有可达参数集。然后,提供最坏情况下行为的界限,包括模型性能和后门成功率。
- 其它亮点论文提出了一个解决可能被污染数据训练的模型的保证问题的框架,并在多个真实世界数据集上进行了实验验证。实验设计合理,使用的数据集包括能源消耗、医学影像和自动驾驶等领域。该论文的方法有望在数据质量不确定的情况下提高模型的鲁棒性。
- 最近的相关研究包括“DeepRobust: Defending Against Adversarial Attacks by Training Deep Neural Networks with a Strong Adversary”和“Certified Adversarial Robustness via Randomized Smoothing”。
沙发等你来抢
去评论
评论
沙发等你来抢