- 简介集成语音和大型语言模型(SLM)能够跟随语音指令并生成相关文本响应,近来变得越来越流行。然而,这些模型的安全性和稳健性仍然不清楚。在这项工作中,我们调查了这种指令跟随语言模型对于对抗攻击和越狱的潜在漏洞。具体地,我们设计了算法,可以在白盒和黑盒攻击设置下生成对抗性示例,以越狱SLM,而无需人类参与。此外,我们提出了应对此类越狱攻击的对策。我们的模型在具有语音指令的对话数据上进行训练,在口语问答任务上实现了最先进的性能,得分在安全性和有用性度量方面均超过80%。尽管有安全防护措施,越狱实验表明SLM对于对抗扰动和转移攻击的漏洞性,当在涵盖12种不同有害类别的谨慎设计的问题数据集上进行评估时,平均攻击成功率分别为90%和10%。但是,我们证明了我们提出的对策显著降低了攻击成功率。
- 图表
- 解决问题本论文旨在研究语音指令跟随大语言模型(SLMs)的潜在漏洞和可靠性,并提出对抗性攻击和越狱的解决方案。
- 关键思路本论文设计算法,能够生成对抗性示例,从而越狱SLMs,同时提出反制措施来防止这种越狱攻击。
- 其它亮点本论文的模型在口语问答任务上表现出优异的性能,并且提出了对抗攻击和越狱的解决方案。实验结果表明,SLMs容易受到对抗性扰动和转移攻击的影响,但是提出的反制措施可以显著减少攻击的成功率。
- 最近的相关研究包括“Adversarial Examples for Natural Language Classification Problems”和“TextFooler: Generating Adversarial Text Against Real-world Applications”。
沙发等你来抢
去评论
评论
沙发等你来抢