谷歌正式发布MusicLM，将文本转化为音乐

谷歌今天发布了MusicLM，这是一种新的实验性人工智能工具，可以将文本描述转化为音乐，可以注册在网络、Android或iOS上的AI Test Kitchen中试用它。

MusicLM在网络、Android或iOS上的AI Test Kitchen应用程序中可用，允许用户键入“晚餐派对的灵魂爵士乐”或“创建催眠的工业技术声音”等提示，并让该工具创建歌曲的几个版本。

MusicLM: Generating Music From Text

测试地址：https://aitestkitchen.withgoogle.com

视频地址：Music LM Artist workshop with AI Test Kitchen & Google Arts & Culture Lab

项目地址：https://google-research.github.io/seanet/musiclm/examples/

作者：

Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank

用户可以指定“电子”或“经典”等乐器，以及他们瞄准的“振动、情绪或情感”，因为他们完善了MusicLM生成的创作。

当谷歌在1月份的一篇学术论文中预览MusicLM时，它表示“没有立即计划”发布它。该论文的合著者指出了像MusicLM这样的系统带来的许多道德挑战，包括将训练数据中受版权保护的材料纳入生成的歌曲的趋势。

只需输入像“晚餐派对的充满灵魂的爵士乐”这样的提示，MusicLM将为您创建歌曲的两个版本。你可以听这两首歌，并给你更喜欢的曲目一个奖杯，这将有助于改进模型。

谷歌MusicLM可生成各种复杂音乐，发布第一个为文本音乐生成任务收集的评估数据集MusicCaps

谷歌发布MusicLM，这不是第一个生成歌曲的 AI 系统，其他更早的尝试包括 Riffusion，这是一种通过可视化来创作音乐的 AI，以及 Dance Diffusion，谷歌自己也发布过 AudioML，OpenAI 则推出过 Jukebox。

虽然生成音乐的 AI 系统早已被开发出来，但由于技术限制和训练数据有限，还没有人能够创作出曲子特别复杂或保真度特别高的歌曲。不过，MusicLM 可能是第一个做到的。

你要做的就是动动手指输入文本就可以。

MusicLM，一个生成模型，能以24kHz的频率生成高质量的音乐，在几分钟内保持一致，同时忠实于文本信号；将该方法扩展到其他条件信号，如根据文本提示合成的旋律，并演示了长达5分钟的长片段音乐生成的一致性；发布第一个专门为文本-音乐生成任务收集的评估数据集MusicCaps，由音乐家准备的5.5千首音乐-文本对的手工整理的高质量数据集。

歌采用三个模型来提取音频表示，这些模型将用于条件自回归音乐生成，如图 1 所示。SoundStream 模型用来处理 24 kHz 单声音频，从而得到 50 Hz 的嵌入；具有 600M 参数的 w2v-BERT 模型用于建模中间层；MuLan 模型用于提取目标音频序列的表示。

然后将上述得到的离散音频表示与 AudioLM 相结合，从而实现基于文本的音乐生成。为了达到这一效果，谷歌提出了一个分层的序列 - 序列建模任务，其中每个阶段都由单独的解码器 Transformer 自回归建模。所提出的方法如图 2 所示。

谷歌在 FMA（Free Music Archive）数据集上训练 SoundStream 和 w2v-BERT 模型，而语义和声学建模阶段的 tokenizer 以及自回归模型是在 500 万音频剪辑的数据集上训练的，在 24kHz 下总计 280000 小时的音乐。

实验部分，谷歌将 MusicLM 与文本生成音乐的基线方法 Mubert 、 Riffusion 进行比较。结果显示在 FAD_VGG 指标上，MusicLM 所捕获的音频质量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上，MusicLM 的得分与 Mubert 相似 (0.44 vs。0.45)，优于 Riffusion (0.76)。

图 3 是对提示长度分析的结果：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌正式发布MusicLM，将文本转化为音乐

评论