作者:Weimin Lyu, Songzhu Zheng, Tengfei Ma,等

简介:本文研究木马攻击对人工智能系统的严重威胁。最近关于 Transformer 模型的作品受到了爆炸式的欢迎,自我关注注意力现在是无可争辩的。这就提出了一个核心问题:我们能否通过 BERT 和 ViT 中的注意力机制揭示特洛伊木马?在本文中,作者研究了特洛伊 AI 中的注意力劫持模式,即当存在特定触发器时,触发器令牌“绑架”注意力权重。作者从自然语言处理 (NLP) 和计算机视觉 (CV) 领域观察到 Trojan Transformers 中一致的注意力劫持模式。这个有趣的特性有助于理解 BERT 和 ViT 中的木马机制。作者还提出了一种注意力劫持特洛伊木马检测器 (AHTD) 来区分木马 AI 和干净的 AI。

论文下载:https://arxiv.org/pdf/2208.04946.pdf