- 简介实时语音交互作为人机协作的基本界面,具有巨大的潜力。然而,当前的开源模型面临诸如语音数据收集成本高、动态控制能力弱以及智能有限等挑战。为了解决这些问题,本文介绍了Step-Audio,这是第一个可用于生产的开源解决方案。主要贡献包括:1)一个拥有1300亿参数的统一语音-文本多模态模型,实现了统一的理解和生成,并开放了Step-Audio-Chat版本;2)一个生成式语音数据引擎,建立了经济实惠的语音克隆框架,并通过蒸馏技术生成了开源的轻量级Step-Audio-TTS-3B模型;3)一个指令驱动的精细控制系统,能够跨方言、情感、歌唱和说唱进行动态调整;4)一种增强的认知架构,具备工具调用和角色扮演能力,能够有效管理复杂任务。根据我们新的StepEval-Audio-360评估基准,Step-Audio在人类评估中达到了最先进的性能,特别是在指令跟随方面表现出色。在LLaMA Question等开源基准测试中,平均性能提高了9.3%,展示了我们致力于推进开源多模态语言技术发展的决心。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。
- 图表
- 解决问题论文试图解决当前开放源代码模型在实时语音交互中面临的问题,如语音数据收集成本高、动态控制能力弱和智能有限。这是一个亟待解决的问题,旨在提升人机协作的效率和效果。
- 关键思路关键思路在于引入Step-Audio,这是首个生产就绪的开源解决方案,包含一个130B参数的统一语音-文本多模态模型,能够实现统一的理解和生成。此外,通过生成性语音数据引擎和指令驱动的精细控制系统,解决了现有模型的局限性。相比其他研究,Step-Audio不仅提升了模型性能,还降低了语音数据收集的成本,并增强了对复杂任务的处理能力。
- 其它亮点亮点包括:1) 开源了Step-Audio-Chat版本,2) 提出了一个经济实惠的语音克隆框架和轻量级的Step-Audio-TTS-3B模型,3) 实现了跨方言、情感、唱歌和说唱的动态调整,4) 增强了认知架构以更好地管理复杂任务。实验设计基于新的StepEval-Audio-360评估基准,显示了在人类评价中的卓越表现,特别是在指令跟随方面。此外,论文提供了开源代码和模型,鼓励进一步的研究和发展。
- 最近的相关研究包括:1) LLaMA系列模型在多模态语言技术上的进展,2) Google的PaLM-E在视觉和语言任务上的工作,3) Meta的MPT-7B模型在对话系统中的应用。这些研究都致力于提高多模态理解和生成的能力。相关论文标题有《LLaMA: Open and Efficient Foundation Language Models》、《PaLM-E: Vision-Language Models with Unified Pre-training》、《MPT-7B: A Large-Scale Multimodal Pre-trained Model》。
沙发等你来抢
去评论
评论
沙发等你来抢