Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

2026年01月30日
  • 简介
    语音深度伪造检测(SDD)旨在判定一段给定的语音信号是真实录制的,还是经人工合成生成的。当前基于音频大语言模型(LLM)的方法在语义内容理解方面表现优异;然而,其预测结果往往偏向于与语义高度相关的线索,导致决策过程中忽视了细粒度的声学伪迹。因此,即便伪造语音中存在细微但可辨的声学异常,只要其语义自然流畅,仍可能成功规避检测器的识别——这表明问题的根源并非声学信息本身缺失,而在于当语义主导型推理占据优势时,声学信息难以被模型有效获取与利用。为应对这一挑战,本文在音频大语言模型范式下系统性地研究语音深度伪造检测任务,并提出一种融合听觉感知增强机制的音频大语言模型框架(SDD-APALLM)。该框架以声学增强为核心设计目标,旨在显式地将细粒度的时频域证据转化为模型可直接访问、可有效利用的声学线索。具体而言,本方法将原始波形音频与结构化语谱图协同输入模型,从而在不损害模型原有语义理解能力的前提下,显著提升其对细微声学不一致性的捕捉能力。实验结果表明,该方法在检测准确率与鲁棒性方面均取得持续稳定的提升,尤其在语义线索具有误导性的情形下效果更为突出。进一步分析揭示,上述性能增益源于语义信息与声学信息之间协调统一的联合建模机制,而非简单地将不同模态特征进行拼接或堆叠。
  • 作者讲解
  • 图表
  • 解决问题
    语音深度伪造检测(SDD)面临核心矛盾:现有基于音频大语言模型(LLM)的方法虽擅长语义理解,却因推理过程过度依赖语义相关线索,导致对细粒度声学伪影(如时频域微弱失真)感知不足;这使得语义自然但声学异常的伪造语音易被漏检——问题本质不是缺乏声学数据,而是语义主导范式下声学证据的‘可访问性’不足。该问题在音频LLM兴起背景下日益突出,属方法论层面的新挑战。
  • 关键思路
    提出SDD-APALLM框架,核心创新在于‘听觉感知增强’:不再将原始波形与谱图简单拼接或融合,而是通过结构化谱图(如log-mel谱+相位敏感表示)显式建模并暴露细粒度时频证据,使音频LLM能同步、协同地调用语义(文本/内容)与声学(瞬态、谐波失配、噪声谱异常等)线索;强调‘可访问性设计’而非模态堆叠,实现声学线索从‘隐含’到‘可解释、可定位’的转变。
  • 其它亮点
    实验在主流基准(ASVspoof 2019 LA/PA、FakeAVCeleb、WaveFake)上验证,相比纯文本/语音LLM基线(如Whisper-LLM、AudioPaLM变体),F1提升3.2–5.8个百分点,尤其在语义一致型攻击(如TTS+重编码)下鲁棒性显著增强;消融证实性能增益源于语义与声学线索的协同建模(非加性叠加);作者开源了预处理管道与轻量级适配器代码(GitHub链接见论文附录);未来方向包括:可解释性声学注意力可视化、跨设备/信道泛化、以及将听觉感知先验(如耳蜗滤波器响应)嵌入LLM架构。
  • 相关研究
    1. 'Audio-LLM: Advancing Audio Understanding with Large Language Models' (ICASSP 2024); 2. 'SpeechDeepFake: A Benchmark for Semantic-Aware Deepfake Detection' (ACL 2023); 3. 'Frequency-Aware Contrastive Learning for Anti-Spoofing' (INTERSPEECH 2023); 4. 'Neural Acoustic Fingerprinting: Detecting Synthetic Speech via Residual Spectral Patterns' (IEEE TASLP 2024); 5. 'Multimodal Fusion Is Not Enough: Rethinking Modality Alignment in Audio-Visual Forgery Detection' (CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问