FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

2024年07月04日
  • 简介
    本报告介绍了FunAudioLLM,这是一种模型家族,旨在增强人类和大型语言模型(LLMs)之间的自然语音交互。它的核心是两个创新模型:SenseVoice,处理多语言语音识别、情感识别和音频事件检测;以及CosyVoice,促进自然语音生成,控制多种语言、音色、说话风格和说话人身份。SenseVoice-Small提供了5种语言的极低延迟ASR,SenseVoice-Large支持50多种语言的高精度ASR,而CosyVoice在多语言语音生成、零-shot上下文学习、跨语言语音克隆和指令跟随能力方面表现出色。与SenseVoice和CosyVoice相关的模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。通过将这些模型与LLMs集成,FunAudioLLM实现了诸如语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述等应用,从而推动了语音交互技术的边界。演示可在https://fun-audio-llm.github.io上获取,代码可在https://github.com/FunAudioLLM上访问。
  • 图表
  • 解决问题
    FunAudioLLM旨在提高人类与大型语言模型之间的自然语音交互体验。它包括两个创新模型:SenseVoice和CosyVoice,分别用于语音识别和语音生成。该论文试图解决语音交互中多语言、情感识别、音频事件检测、自然语音生成等问题。
  • 关键思路
    SenseVoice和CosyVoice模型的创新之处在于,它们提供了多语言、情感识别、音频事件检测、自然语音生成、说话人身份识别等功能,并且支持多种语音风格和语音特征的控制。与当前领域的研究相比,FunAudioLLM提供了更全面、更灵活、更自然的语音交互体验。
  • 其它亮点
    FunAudioLLM的模型SenseVoice-Small和SenseVoice-Large分别支持5种和50多种语言的语音识别,CosyVoice模型支持多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟随等功能。论文开源了SenseVoice和CosyVoice模型的代码和训练数据,提供了多个应用程序的演示。FunAudioLLM为语音到语音翻译、情感语音聊天、交互式播客和有表现力的有声读物叙述等应用程序提供了支持。
  • 相关研究
    在这个领域,最近的相关研究包括:1. Google的Tacotron 2和WaveNet模型;2. Facebook的FairSeq和wav2vec 2.0模型;3. 百度的DeepSpeech 2和ERINE模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论