- 简介这份报告介绍了FunAudioLLM,这是一个旨在增强人类和大型语言模型(LLM)之间自然语音交互的模型系列。它的核心是两个创新的模型:SenseVoice,用于处理多语言语音识别、情感识别和音频事件检测;以及CosyVoice,用于实现对多种语言、音色、说话风格和说话人身份的自然语音生成控制。SenseVoice-Small为5种语言提供了极低延迟的ASR,而SenseVoice-Large支持50多种语言的高精度ASR,而CosyVoice在多语言语音生成、零-shot上下文学习、跨语言语音克隆和指令跟随能力方面表现出色。与SenseVoice和CosyVoice相关的模型已经在Modelscope和Huggingface上开源,相应的训练、推理和微调代码已在GitHub上发布。通过将这些模型与LLM集成,FunAudioLLM实现了诸如语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述等应用,从而推动了语音交互技术的界限。演示可在https://fun-audio-llm.github.io上获取,代码可在https://github.com/FunAudioLLM上访问。
- 图表
- 解决问题FunAudioLLM旨在增强人类和大型语言模型之间的自然语音交互。该模型家族包括SenseVoice和CosyVoice两个创新模型,分别用于语音识别、情感识别、语音生成等多个领域。
- 关键思路SenseVoice和CosyVoice模型的创新点在于支持多语言、多样化的语音交互,具有低延迟、高精度、多样性等特点。通过与大型语言模型的结合,可以实现语音翻译、情感交流、互动播客、有表现力的有声书等应用。
- 其它亮点论文开源了SenseVoice和CosyVoice模型的相关代码,提供了多个数据集和实验结果,并提出了一些值得深入研究的方向,如零-shot学习、跨语言语音克隆等。
- 在语音交互领域,还有一些相关的研究,如Google的WaveNet、Baidu的Deep Voice等。
沙发等你来抢
去评论
评论
沙发等你来抢