Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers

2025年08月04日
  • 简介
    随着音频大语言模型(ALLM)成为语音处理领域的强大工具,其安全性问题也迫切需要引起关注。尽管已有大量研究探讨了文本和视觉内容的安全问题,但音频所具有的独特特性带来了显著的挑战。本文首先探讨了一个关键问题:音频大语言模型是否容易受到利用声学触发机制的后门攻击?针对这一问题,我们提出了“隐匿于噪声”(Hidden in the Noise, HIN)这一全新的后门攻击框架,专门利用细微且与音频特性相关的特征。HIN通过对原始音频波形进行声学修改来实现攻击,例如调整时间动态特性,或在频谱上精心设计并注入噪声。这些修改会在音频流中引入一致的模式,被ALLM的声学特征编码器捕捉,从而嵌入强健的触发机制。 为了评估ALLM对基于声学特征触发机制的鲁棒性,我们构建了AudioSafe基准测试,涵盖了九种不同类型的安全风险。在AudioSafe以及三个现有的安全数据集上进行的大量实验揭示了当前ALLM中存在的关键漏洞:(I)诸如环境噪声和语速变化等音频特征可实现超过90%的平均攻击成功率;(II)ALLM对不同的声学特征表现出显著的敏感性差异,尤其是对音量作为触发特征几乎无反应;(III)即便在训练数据中仅混入少量恶意样本,损失曲线也仅有轻微波动,凸显了该攻击方式的隐蔽性。
  • 图表
  • 解决问题
    论文试图解决Audio Large Language Models(ALLMs)在音频安全方面可能遭受利用音频特征触发的后门攻击的问题。具体来说,研究是否可以通过对音频进行细微的声学修改,诱导ALLM产生特定行为,而这种行为在正常音频中不会被触发。这是一个相对较新的问题,因为此前的研究更多集中在文本和视觉模型的安全性上,而音频模型的特殊性带来了新的挑战。
  • 关键思路
    论文提出了一种名为Hidden in the Noise (HIN)的后门攻击框架,通过在原始音频波形中引入细微的声学修改(如时间动态调整和频谱定制噪声注入),在不明显影响人类感知的前提下,触发ALLM的特定行为。其创新之处在于专门针对音频模态的特性设计攻击策略,而不是简单套用文本或视觉领域的攻击方法。
  • 其它亮点
    1. 开发了AudioSafe基准测试集,涵盖9种不同的音频安全风险类型,为评估ALLM的安全性提供了系统化工具。 2. 实验表明,当前的ALLM对某些声学特征(如环境噪声和语速变化)非常敏感,攻击成功率超过90%。 3. 发现ALLM对不同声学特征的敏感性存在显著差异,例如对音量变化的响应较弱。 4. 攻击样本的注入对训练损失曲线影响极小,表明攻击具有高度隐蔽性。 5. 论文强调了ALLM在实际部署前必须进行音频安全评估的重要性。 6. 未来的研究方向包括设计更鲁棒的音频特征编码器,以及开发针对音频模态的防御机制。
  • 相关研究
    1. 「Backdoor Attacks on Deep Learning Models: A Comprehensive Survey」(2022) 2. 「Adversarial Examples in the Physical World」(2017) 3. 「Audio Adversarial Examples: Targeted Attacks on Speech-to-Text」(2018) 4. 「DeepSpeech: Scaling up end-to-end speech recognition」(2014) 5. 「Safety and Robustness in Audio Deep Learning Models: A Survey」(2023) 6. 「Poisoning Attacks Against Automatic Speech Recognition Systems」(2020) 7. 「SirenAttack: Generating Audio Adversarial Examples via Gradient Sign Method」(2021)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论