美国石溪大学、IBM | Attention Hijacking in Trojan Transformers（特洛伊木马Transformers 中的注意力劫持）

作者：Weimin Lyu, Songzhu Zheng, Tengfei Ma,等

简介：本文研究木马攻击对人工智能系统的严重威胁。最近关于 Transformer 模型的作品受到了爆炸式的欢迎，自我关注注意力现在是无可争辩的。这就提出了一个核心问题：我们能否通过 BERT 和 ViT 中的注意力机制揭示特洛伊木马？在本文中，作者研究了特洛伊 AI 中的注意力劫持模式，即当存在特定触发器时，触发器令牌“绑架”注意力权重。作者从自然语言处理 (NLP) 和计算机视觉 (CV) 领域观察到 Trojan Transformers 中一致的注意力劫持模式。这个有趣的特性有助于理解 BERT 和 ViT 中的木马机制。作者还提出了一种注意力劫持特洛伊木马检测器 (AHTD) 来区分木马 AI 和干净的 AI。

论文下载：https://arxiv.org/pdf/2208.04946.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

美国石溪大学、IBM | Attention Hijacking in Trojan Transformers（特洛伊木马Transformers 中的注意力劫持）

评论列表

评论