- 简介我们介绍了Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。我们详细阐述了构建Kimi-Audio的过程,包括模型架构、数据整理、训练方法、推理部署以及评估。具体来说,我们采用了12.5Hz的音频分词器,设计了一种以连续特征为输入、离散标记为输出的新型基于大语言模型(LLM)的架构,并开发了一个基于流匹配的分块流式反分词器。我们整理了一个预训练数据集,其中包含超过1300万小时的音频数据,涵盖了包括语音、声音和音乐在内的多种模态,并构建了一条流水线以生成高质量且多样化的后训练数据。Kimi-Audio从一个预训练的大语言模型初始化,通过几个精心设计的任务在音频和文本数据上进行了持续预训练,随后进一步微调以支持各种与音频相关的任务。广泛的评估表明,Kimi-Audio在一系列音频基准测试中取得了最先进的性能,包括语音识别、音频理解、音频问答和语音对话等任务。我们已在https://github.com/MoonshotAI/Kimi-Audio上开源了代码、模型权重以及评估工具包。
- 图表
- 解决问题该论文试图构建一个能够处理音频理解、生成和对话的多功能模型,解决当前音频领域中多模态任务(如语音识别、音频问答和音乐生成)缺乏统一框架的问题。这是一个具有挑战性的问题,但并非完全新问题,因为已有研究尝试结合语言模型与音频数据。
- 关键思路Kimi-Audio 的关键思路是设计一种基于 LLM 的架构,将连续音频特征作为输入,并通过 12.5Hz 的音频 tokenizer 和流匹配解码器输出离散 token。此外,模型通过大规模音频和文本数据的持续预训练以及特定任务的微调来增强性能。相比现有方法,其创新点在于引入了 chunk-wise 流式解码机制,以及对多样化音频模态(如语音、声音和音乐)的大规模数据集进行联合建模。
- 其它亮点论文亮点包括:1) 构建了一个包含超过 1300 万小时音频数据的高质量预训练数据集;2) 提出了流匹配解码器以实现高效的音频生成;3) 在多个音频基准测试中达到 SOTA 性能,涵盖语音识别、音频理解和对话等任务;4) 开源了代码、模型权重及评估工具包,为后续研究提供了便利。未来可深入研究的方向包括更高效的音频表示学习和跨模态交互能力的提升。
- 最近相关研究包括:1) AudioLM(Google, 2022),提出了一种基于语言建模的音频生成方法;2) SoundStorm(Shanghai AI Lab, 2023),专注于通过自监督学习生成高质量音频;3) MusicGen(Meta, 2023),针对音乐生成任务的多模态模型;4) Whisper(OpenAI, 2022),在语音识别任务上表现出色的开源模型。这些研究共同推动了音频领域的多模态建模和生成技术的发展。
沙发等你来抢
去评论
评论
沙发等你来抢