Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

2025年05月14日
  • 简介
    我们提出了 Omni-R1,该模型基于最近的多模态大语言模型通义千问2.5-Omni,通过强化学习方法 GRPO 在音频问答数据集上进行微调。这一方法在最新的 MMAU 基准测试中达到了新的最佳性能。Omni-R1 在 Test-mini 和 Test-full 数据分割中,于声音、音乐、语音以及整体平均类别上均取得了最高的准确率。为了理解性能提升的原因,我们分别测试了有音频和无音频输入的模型,发现 GRPO 带来的性能改进很大程度上归因于更好的文本推理能力。此外,我们还意外地发现,在仅包含文本的数据集上进行微调(不使用音频),也能有效提升基于音频的任务表现。
  • 图表
  • 解决问题
    该论文试图通过强化学习方法GRPO改进多模态大模型Qwen2.5-Omni在音频问答任务中的表现,特别是在MMAU基准测试上的性能。这是一个针对提升多模态模型音频理解能力的具体问题,虽然音频处理本身不是新领域,但结合最新大模型和强化学习进行优化是一个新颖尝试。
  • 关键思路
    论文的关键思路是利用强化学习(具体为GRPO方法)对预训练的多模态大语言模型Qwen2.5-Omni进行微调,并专注于音频问答数据集。相比传统的监督学习微调,这种方法显著提高了模型在声音、音乐和语音分类任务中的表现。此外,作者发现即使在无音频输入的情况下,模型的文本推理能力也得到了增强,这表明强化学习可能不仅提升了音频理解能力,还增强了模型的整体泛化能力。
  • 其它亮点
    1. 在MMAU基准测试中,Omni-R1在多个类别(声音、音乐、语音等)上达到了SOTA性能。 2. 实验设计包括对比有无音频输入的情况,揭示了强化学习对文本推理能力的间接提升作用。 3. 意外发现:在仅使用文本数据集进行微调时,音频任务的表现依然有所提高,这为未来研究提供了新方向。 4. 论文未提及代码是否开源,但实验使用的MMAU数据集公开可用,便于后续验证与复现。 5. 值得深入研究的方向包括:如何进一步优化GRPO算法以适应更多模态任务,以及探索文本微调对其他非文本模态任务的影响。
  • 相关研究
    近期相关研究包括: 1. "Audio-Visual Learning with Multimodal Transformers" - 探索视听联合学习的潜力。 2. "Fine-Tuning Large Language Models for Speech Recognition" - 针对语音识别任务的大模型微调研究。 3. "Reinforcement Learning for Multimodal Understanding" - 使用强化学习优化多模态模型的任务表现。 4. "Improving Audio Classification via Cross-Modal Transfer" - 研究跨模态迁移对音频分类的影响。 这些工作共同构成了多模态学习和音频理解领域的前沿进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论