Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

2025年02月17日
  • 简介
    实时语音交互作为人机协作的基本界面,具有巨大的潜力。然而,当前的开源模型面临诸如语音数据收集成本高、动态控制能力弱以及智能有限等挑战。为了解决这些问题,本文介绍了Step-Audio,这是首个生产就绪的开源解决方案。主要贡献包括:1) 一个拥有1300亿参数的统一语音-文本多模态模型,实现了统一的理解和生成,并开放了Step-Audio-Chat版本;2) 一个生成式语音数据引擎,建立了经济实惠的语音克隆框架,并通过蒸馏技术生成了开源的轻量级Step-Audio-TTS-3B模型;3) 一个指令驱动的精细控制系统,能够在方言、情感、唱歌和说唱等方面进行动态调整;4) 一个增强的认知架构,增加了工具调用和角色扮演的能力,以有效管理复杂任务。根据我们新的StepEval-Audio-360评估基准,Step-Audio在人类评估中达到了最先进的性能,特别是在指令跟随方面表现出色。在LLaMA Question等开源基准测试中,平均性能提高了9.3%,展示了我们致力于推动开源多模态语言技术发展的决心。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决当前开源语音交互模型中存在的几个关键问题:语音数据收集成本高、动态控制能力弱以及智能水平有限。这些问题限制了实时语音交互技术在人机协作中的广泛应用和发展。
  • 关键思路
    Step-Audio 提出了一个创新的解决方案,通过构建一个130B参数的统一语音-文本多模态模型,实现了对语音和文本的统一理解和生成。此外,它引入了一个生成式语音数据引擎,通过知识蒸馏技术创建了一个轻量级的语音合成模型(Step-Audio-TTS-3B),从而降低了语音克隆的成本。同时,Step-Audio 还开发了一套指令驱动的精细控制系统,能够动态调整语音输出的各种特性,如方言、情感等。最后,增强的认知架构使得系统可以更好地处理复杂任务。
  • 其它亮点
    论文的主要亮点包括:1) 开源了大规模的多模态模型 Step-Audio-Chat;2) 提出了一种低成本的语音克隆框架;3) 实现了多种语音特性的动态控制;4) 引入了新的评估基准 StepEval-Audio-360,并在多个公开基准上展示了显著的性能提升。所有代码和模型均已开源,为后续研究提供了宝贵资源。
  • 相关研究
    近期相关研究包括:1) Whisper 模型,由OpenAI提出,专注于大模型在语音识别上的应用;2) AudioLM,谷歌的研究成果,探索了语言模型在音频生成中的潜力;3) VALL-E,微软提出的低资源语音合成方法。这些研究共同推动了语音技术的发展,而 Step-Audio 在此基础上进一步提升了多模态交互的能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问