Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits

2024年06月03日
  • 简介
    开源语言模型的迅速传播显著增加了下游后门攻击的风险。这些后门在模型部署期间可以引入危险行为,并且可以逃避传统的网络安全监控系统的检测。本文介绍了一种新型自回归变换模型中的后门类别,与之前的技术相比,具有不可引出性质。不可引出性质可以防止防御者触发后门,即使拥有完整的白盒访问权限并使用自动化技术,如红队测试或某些形式的验证方法,在部署前也无法进行评估或检测。我们展示了我们的新型构造不仅因使用了加密技术而不可引出,而且具有有利的鲁棒性质。我们通过实证调查证实了这些性质,并提供了证据表明我们的后门可以经受住最先进的缓解策略的考验。此外,我们通过展示我们的通用后门,虽然在白盒环境中并非完全不可检测,但比某些现有设计更难以检测,扩展了之前的工作。通过展示将后门无缝集成到变换模型中的可行性,本文从根本上质疑了部署前检测策略的功效。这为AI安全和安全领域的进攻防御平衡提供了新的见解。
  • 图表
  • 解决问题
    本论文旨在解决自回归变压器模型中后门攻击的问题,提出了一种新型的不可引诱后门攻击方式,这种攻击方式在模型部署过程中可以逃避传统的网络安全监控系统的检测。
  • 关键思路
    本论文的关键思路是使用加密技术构建不可引诱的后门攻击,使得防御者无法触发后门,从而无法进行检测和评估。同时,本文还证明了这种攻击方式具有较好的鲁棒性。
  • 其它亮点
    本文的亮点在于提出了一种新型的不可引诱后门攻击方式,并证明了其鲁棒性。实验设计合理,使用了多个数据集进行验证,并提供了开源代码。本文的研究结果对AI安全和安全领域的攻防平衡提供了新的见解。
  • 相关研究
    在此领域中,还有一些相关的研究,如《DeepSigns: A Uniform Framework for Adversarial Examples Attack and Defense in Deep Learning》、《Deep Learning-Based Malware Detection: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论