FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

2024年07月04日
  • 简介
    本报告介绍了FunAudioLLM,这是一个模型系列,旨在增强人类和大型语言模型(LLMs)之间的自然语音交互。其核心是两个创新模型:SenseVoice,用于处理多语种语音识别、情感识别和音频事件检测;以及CosyVoice,用于实现自然语音生成,可控制多种语言、音色、说话风格和说话人身份。SenseVoice-Small提供了5种语言的极低延迟ASR,而SenseVoice-Large支持50多种语言的高精度ASR,而CosyVoice在多语言语音生成、零-shot上下文学习、跨语言语音克隆和指令跟随功能方面表现出色。与SenseVoice和CosyVoice相关的模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。通过将这些模型与LLMs集成,FunAudioLLM可以实现诸如语音翻译、情感语音聊天、交互式播客和富有表现力的有声书叙述等应用,从而推动语音交互技术的发展。演示可在https://fun-audio-llm.github.io上获得,代码可在https://github.com/FunAudioLLM上访问。
  • 图表
  • 解决问题
    FunAudioLLM试图提高人类与大语言模型(LLMs)之间的自然语音交互,包括多语言语音识别、情感识别、音频事件检测和自然语音生成等方面。
  • 关键思路
    论文提出了两个创新模型:SenseVoice和CosyVoice。SenseVoice支持超过50种语言的高精度ASR,而CosyVoice则支持多语言语音生成、零-shot上下文学习、跨语言语音克隆和指令跟踪等功能。
  • 其它亮点
    论文提供了开源的代码和模型,可以在Modelscope和Huggingface上获取。模型在多种应用场景下具有广泛的应用前景,如语音翻译、情感语音聊天、互动播客和有表现力的有声读物等。论文还使用了多个数据集进行实验,并展示了模型的出色表现。
  • 相关研究
    最近的相关研究包括:《End-to-End Multilingual Speech Recognition with Self-Supervised Pre-Training》、《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》、《Zero-shot Voice Conversion with Cross-lingual Speaker Embeddings》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论