NEW

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

Ailin Huang ,

Boyong Wu ,

Bruce Wang ,

Chao Yan ,

Chen Hu ,

Chengli Feng ,

Fei Tian ,

Feiyu Shen ,

Jingbei Li ,

Mingrui Chen ,

Peng Liu ,

Ruihang Miao ,

Wang You ,

Xi Chen ,

Xuerui Yang ,

Yechang Huang ,

Yuxiang Zhang ,

Zheng Gong ,

Zixin Zhang ,

Hongyu Zhou ,

Jianjian Sun ,

Brian Li ,

Chengting Feng ,

Changyi Wan ,

Hanpeng Hu ,

Jianchang Wu ,

Jiangjie Zhen ,

Ranchen Ming ,

Song Yuan ,

Xuelin Zhang ,

Yu Zhou ,

Bingxin Li ,

Buyun Ma ,

Hongyuan Wang ,

Kang An ,

Wei Ji ,

Wen Li ,

Xuan Wen ,

Xiangwen Kong ,

Yuankai Ma ,

Yuanwei Liang ,

Yun Mou ,

Bahtiyar Ahmidi ,

Bin Wang ,

Bo Li ,

Changxin Miao ,

Chen Xu ,

Chenrun Wang ,

Dapeng Shi ,

Deshan Sun ,

Dingyuan Hu ,

Dula Sai ,

Enle Liu ,

Guanzhe Huang ,

Gulin Yan ,

Heng Wang ,

Haonan Jia ,

Haoyang Zhang ,

Jiahao Gong ,

Junjing Guo ,

Jiashuai Liu ,

Jiahong Liu ,

Jie Feng ,

Jie Wu ,

Jiaoren Wu ,

Jie Yang ,

Jinguo Wang ,

Jingyang Zhang ,

Junzhe Lin ,

Kaixiang Li ,

Lei Xia ,

Li Zhou ,

Liang Zhao ,

Longlong Gu ,

Mei Chen ,

Menglin Wu ,

Ming Li ,

Mingxiao Li ,

Mingliang Li ,

Mingyao Liang ,

Na Wang ,

Nie Hao ,

Qiling Wu ,

Qinyuan Tan ,

Ran Sun ,

Shuai Shuai ,

Shaoliang Pang ,

Shiliang Yang ,

Shuli Gao ,

Shanshan Yuan ,

Siqi Liu ,

Shihong Deng ,

Shilei Jiang ,

Sitong Liu ,

Tiancheng Cao ,

Tianyu Wang ,

Wenjin Deng ,

Wuxun Xie ,

Weipeng Ming ,

Wenqing He ,

Wen Sun ,

Xin Han ,

Xin Huang ,

Xiaomin Deng ,

Xiaojia Liu ,

Xin Wu ,

Xu Zhao ,

Yanan Wei ,

Yanbo Yu ,

Yang Cao ,

Yangguang Li ,

Yangzhen Ma ,

Yanming Xu ,

Yaoyu Wang ,

Yaqiang Shi ,

Yilei Wang ,

Yizhuang Zhou ,

Yinmin Zhong ,

Yang Zhang ,

Yaoben Wei ,

Yu Luo ,

Yuanwei Lu ,

Yuhe Yin ,

Yuchu Luo ,

Yuanhao Ding ,

Yuting Yan ,

Yaqi Dai ,

Yuxiang Yang ,

Zhe Xie ,

Zheng Ge ,

Zheng Sun ,

Zhewei Huang ,

Zhichao Chang ,

Zhisheng Guan ,

Zidong Yang ,

Zili Zhang ,

Binxing Jiao ,

Daxin Jiang ,

Heung-Yeung Shum ,

Jiansheng Chen ,

Jing Li ,

Shuchang Zhou ,

Xiangyu Zhang ,

Xinhao Zhang ,

Yibo Zhu

热度 33

2025年02月17日

简介

实时语音交互作为人机协作的基本界面，具有巨大的潜力。然而，当前的开源模型面临诸如语音数据收集成本高、动态控制能力弱以及智能有限等挑战。为了解决这些问题，本文介绍了Step-Audio，这是首个生产就绪的开源解决方案。主要贡献包括：1) 一个拥有1300亿参数的统一语音-文本多模态模型，实现了统一的理解和生成，并开放了Step-Audio-Chat版本；2) 一个生成式语音数据引擎，建立了经济实惠的语音克隆框架，并通过蒸馏技术生成了开源的轻量级Step-Audio-TTS-3B模型；3) 一个指令驱动的精细控制系统，能够在方言、情感、唱歌和说唱等方面进行动态调整；4) 一个增强的认知架构，增加了工具调用和角色扮演的能力，以有效管理复杂任务。根据我们新的StepEval-Audio-360评估基准，Step-Audio在人类评估中达到了最先进的性能，特别是在指令跟随方面表现出色。在LLaMA Question等开源基准测试中，平均性能提高了9.3%，展示了我们致力于推动开源多模态语言技术发展的决心。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决当前开源语音交互模型中存在的几个关键问题：语音数据收集成本高、动态控制能力弱以及智能水平有限。这些问题限制了实时语音交互技术在人机协作中的广泛应用和发展。
关键思路

Step-Audio 提出了一个创新的解决方案，通过构建一个130B参数的统一语音-文本多模态模型，实现了对语音和文本的统一理解和生成。此外，它引入了一个生成式语音数据引擎，通过知识蒸馏技术创建了一个轻量级的语音合成模型（Step-Audio-TTS-3B），从而降低了语音克隆的成本。同时，Step-Audio 还开发了一套指令驱动的精细控制系统，能够动态调整语音输出的各种特性，如方言、情感等。最后，增强的认知架构使得系统可以更好地处理复杂任务。
其它亮点

论文的主要亮点包括：1) 开源了大规模的多模态模型 Step-Audio-Chat；2) 提出了一种低成本的语音克隆框架；3) 实现了多种语音特性的动态控制；4) 引入了新的评估基准 StepEval-Audio-360，并在多个公开基准上展示了显著的性能提升。所有代码和模型均已开源，为后续研究提供了宝贵资源。
相关研究

近期相关研究包括：1) Whisper 模型，由OpenAI提出，专注于大模型在语音识别上的应用；2) AudioLM，谷歌的研究成果，探索了语言模型在音频生成中的潜力；3) VALL-E，微软提出的低资源语音合成方法。这些研究共同推动了语音技术的发展，而 Step-Audio 在此基础上进一步提升了多模态交互的能力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问