「对抗样本」是一个老生常谈的问题了。
在一个正常的数据中,加入一些轻微扰动,比如修改图片中的几个像素,人眼不会受影响,但AI模型的预测结果可能会发生大幅变化。
对于这种bad case,目前来说还是比较无奈的,黑锅只能甩给模型:泛化性不行。
但,你有没有想过,是不是模型本身被动过手脚?
如果对抗样本只是作者预留的一个后门,该怎么办?
最近加州大学伯克利分校、麻省理工学院、普林斯顿高等研究院的研究人员发布了一篇长达53页的论文,他们发现要是模型开发者稍有恶意,他们就有能力在「任意一个模型」里为自己埋下一个「后门」,而且根本检测不到的那种!
论文链接:https://arxiv.org/abs/2204.06974
文章的第一作者为Shafi Goldwasser,1979年本科毕业于卡内基梅隆大学的数学与科学专业,1984年取得加州大学伯克利分校计算机科学专业的博士学位。
她目前是加州大学伯克利分校的西蒙斯计算理论研究所的所长,主要研究领域包括密码学,可计算数理论,复杂性理论,容错分布计算,概率证明系统,近似算法。2012年因密码学领域的工作,与Silvio Micali一起获得了 2012 年图灵奖。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢