- 简介近期的音频大语言模型(AudioLLMs)呈现出一种显著的性能倒置现象:尽管在复杂推理任务上表现优异,却始终在细粒度声学感知任务上表现欠佳。我们认为,这一性能差距源于以自动语音识别(ASR)为中心的训练范式所固有的根本性局限——该范式虽能提供精确的语言学标注作为监督信号,却在无形中引导模型将副语言线索(paralinguistic cues)和非语言声学事件(acoustic events)当作噪声予以抑制。为应对这一问题,我们提出了“统一音频模式”(Unified Audio Schema, UAS),这是一种整体性、结构化的监督框架,它将音频信息显式地组织为三个组成部分——文本转录(Transcription)、副语言信息(Paralinguistics)与非语言事件(Non-linguistic Events),并统一编码为标准JSON格式。该设计在实现声学信息全覆盖的同时,不牺牲音频与文本之间紧密对齐(audio-text alignment)这一支撑复杂推理能力的关键特性。我们通过将UAS监督策略分别应用于离散型与连续型两类AudioLLM架构,验证了其有效性。在MMSU、MMAR和MMAU三大基准数据集上的大量实验表明,采用UAS训练的音频模型(UAS-Audio)实现了稳定而一致的性能提升:在MMSU数据集上,其细粒度声学感知能力相较同等规模的当前最优模型提升了10.9%,同时完整保持了强大的推理能力。我们的代码与预训练模型已开源,地址为:https://github.com/Tencent/Unified_Audio_Schema。
-
- 图表
- 解决问题AudioLLMs在复杂推理任务上表现优异,但在细粒度声学感知(如语调、情感、环境音识别等)上持续落后,这一‘性能倒置’现象源于传统ASR-centric训练范式将副语言信息和非语言声学事件隐式建模为噪声,导致模型主动抑制关键 acoustic cues。该问题揭示了多模态音频理解中‘语言对齐’与‘声学保真’之间的根本张力,是当前AudioLLM领域尚未被系统识别与建模的新挑战。
- 关键思路提出Unified Audio Schema(UAS)——一种结构化、三元解耦的监督框架,将音频信息显式划分为Transcription(文本转录)、Paralinguistics(副语言特征,如语气、情绪、口音)和Non-linguistic Events(非语言事件,如咳嗽、键盘声、雷声),统一编码为机器可解析的JSON schema。其创新在于:首次将声学感知目标从‘隐式干扰项’提升为‘一级监督信号’,在不破坏音频-文本强对齐前提下,实现语言语义与声学细节的协同学习。
- 其它亮点1) 在MMSU、MMAR、MMAU三大基准上全面验证:UAS-Audio在MMSU细粒度感知任务上相对同规模SOTA提升10.9%,同时保持推理能力无损;2) 适配离散(token-based)与连续(feature-based)两类主流AudioLLM架构,证明框架泛化性;3) 全流程开源:代码、模型权重、UAS标注规范及数据预处理工具均已发布至GitHub;4) 未来方向明确:UAS可自然扩展至时空音频事件定位、跨文化副语言建模、低资源语音Schema蒸馏等方向。
- 1) 'Whisper++: Enhancing Speech Models with Paralinguistic Supervision' (ICASSP 2024); 2) 'AudioPaLM: A Unified Model for Audio and Language' (arXiv:2307.14460); 3) 'SoundStorm: Autoregressive Audio Generation with Latent Diffusion' (NeurIPS 2023); 4) 'VocalSketch: Zero-shot Acoustic Event Retrieval via Text-to-Sound Alignment' (ACL 2024); 5) 'SpeechT5-Large: Towards Universal Speech Representation' (Interspeech 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流