Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

2024年08月29日
  • 简介
    最近的语言模型取得了显著的进展。作为一个新的里程碑,GPT-4o使得与人类的实时对话成为可能,展示了接近人类自然流畅的表现。这种人机交互需要具备直接进行音频模态推理和生成流式输出的能力的模型。然而,这仍然超出了当前学术模型的范畴,因为它们通常依赖于额外的TTS系统进行语音合成,导致不可取的延迟。本文介绍了Mini-Omni,一种基于音频的端到端对话模型,能够进行实时语音交互。为了实现这种能力,我们提出了一种文本指导的语音生成方法,并在推理过程中采用批量并行策略来进一步提高性能。我们的方法还有助于保留原始模型的语言能力,同时最小化性能下降,使得其他工作能够建立实时交互能力。我们将这种训练方法称为“任何模型都能说话”。我们还介绍了VoiceAssistant-400K数据集,以微调针对语音输出进行优化的模型。据我们所知,Mini-Omni是第一个完全端到端的、开源的实时语音交互模型,为未来的研究提供了有价值的潜力。
  • 图表
  • 解决问题
    论文旨在解决实时语音交互中存在的延迟问题,提出一种基于语音的端到端对话模型Mini-Omni,并提出一种文本指导的语音生成方法,名为Any Model Can Talk。
  • 关键思路
    Mini-Omni是一种全新的端到端对话模型,能够实现实时语音交互,通过文本指导的语音生成方法,避免了额外的TTS系统,提高了性能。
  • 其它亮点
    论文提出了Mini-Omni模型和文本指导的语音生成方法,同时介绍了VoiceAssistant-400K数据集用于Fine-tune模型,实验结果表明Mini-Omni模型能够实现实时语音交互,具有很高的应用价值。
  • 相关研究
    最近的相关研究包括:1. GPT-4o模型在自然语言处理领域的应用;2. 基于语音的对话模型的研究进展;3. 端到端对话模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论