Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

向作者提问

NEW

简介

近期的音频大语言模型（AudioLLMs）呈现出一种显著的性能倒置现象：尽管在复杂推理任务上表现优异，却始终在细粒度声学感知任务上表现欠佳。我们认为，这一性能差距源于以自动语音识别（ASR）为中心的训练范式所固有的根本性局限——该范式虽能提供精确的语言学标注作为监督信号，却在无形中引导模型将副语言线索（paralinguistic cues）和非语言声学事件（acoustic events）当作噪声予以抑制。为应对这一问题，我们提出了“统一音频模式”（Unified Audio Schema, UAS），这是一种整体性、结构化的监督框架，它将音频信息显式地组织为三个组成部分——文本转录（Transcription）、副语言信息（Paralinguistics）与非语言事件（Non-linguistic Events），并统一编码为标准JSON格式。该设计在实现声学信息全覆盖的同时，不牺牲音频与文本之间紧密对齐（audio-text alignment）这一支撑复杂推理能力的关键特性。我们通过将UAS监督策略分别应用于离散型与连续型两类AudioLLM架构，验证了其有效性。在MMSU、MMAR和MMAU三大基准数据集上的大量实验表明，采用UAS训练的音频模型（UAS-Audio）实现了稳定而一致的性能提升：在MMSU数据集上，其细粒度声学感知能力相较同等规模的当前最优模型提升了10.9%，同时完整保持了强大的推理能力。我们的代码与预训练模型已开源，地址为：https://github.com/Tencent/Unified_Audio_Schema。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

AudioLLMs在复杂推理任务上表现优异，但在细粒度声学感知（如语调、情感、环境音识别等）上持续落后，这一‘性能倒置’现象源于传统ASR-centric训练范式将副语言信息和非语言声学事件隐式建模为噪声，导致模型主动抑制关键 acoustic cues。该问题揭示了多模态音频理解中‘语言对齐’与‘声学保真’之间的根本张力，是当前AudioLLM领域尚未被系统识别与建模的新挑战。
关键思路

提出Unified Audio Schema（UAS）——一种结构化、三元解耦的监督框架，将音频信息显式划分为Transcription（文本转录）、Paralinguistics（副语言特征，如语气、情绪、口音）和Non-linguistic Events（非语言事件，如咳嗽、键盘声、雷声），统一编码为机器可解析的JSON schema。其创新在于：首次将声学感知目标从‘隐式干扰项’提升为‘一级监督信号’，在不破坏音频-文本强对齐前提下，实现语言语义与声学细节的协同学习。
其它亮点

1) 在MMSU、MMAR、MMAU三大基准上全面验证：UAS-Audio在MMSU细粒度感知任务上相对同规模SOTA提升10.9%，同时保持推理能力无损；2) 适配离散（token-based）与连续（feature-based）两类主流AudioLLM架构，证明框架泛化性；3) 全流程开源：代码、模型权重、UAS标注规范及数据预处理工具均已发布至GitHub；4) 未来方向明确：UAS可自然扩展至时空音频事件定位、跨文化副语言建模、低资源语音Schema蒸馏等方向。
相关研究

1) 'Whisper++: Enhancing Speech Models with Paralinguistic Supervision' (ICASSP 2024); 2) 'AudioPaLM: A Unified Model for Audio and Language' (arXiv:2307.14460); 3) 'SoundStorm: Autoregressive Audio Generation with Latent Diffusion' (NeurIPS 2023); 4) 'VocalSketch: Zero-shot Acoustic Event Retrieval via Text-to-Sound Alignment' (ACL 2024); 5) 'SpeechT5-Large: Towards Universal Speech Representation' (Interspeech 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问